TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning
2509.13579v1
cs.RO, cs.AI, cs.LG
2025-09-19
Авторы:
Momchil S. Tomov, Sang Uk Lee, Hansford Hendrago, Jinwook Huh, Teawon Han, Forbes Howington, Rafael da Silva, Gianmarco Bernasconi, Marc Heim, Samuel Findler, Xiaonan Ji, Alexander Boule, Michael Napoli, Kuo Chen, Jesse Miller, Boaz Floor, Yunqing Hu
Резюме на русском
#### Контекст
На протяжении последних десятилетий, автоматизированные системы управления транспортом, такие как autopilots или планировщики для автономного вождения, являются центральной областью исследований в технике и искусственном интеллекте. Однако столкнуться с проблемами, такими как эффективность, безопасность и природность поведения, остается сложным заданием. Эти проблемы возникают в ситуациях, когда алгоритмы должны осуществлять рациональные решения в сложных и часто непредсказуемых условиях, таких как городский транспорт. TreeIRL предлагает решение этой проблемы, объединяя две мощные методологии: Monte Carlo tree search (MCTS) и inverse reinforcement learning (IRL). Это позволяет обеспечить безопасность, прогресс и комфорт вождения, а также естественность поведения в различных ситуациях.
#### Метод
TreeIRL сочетает в себе MCTS и IRL для выбора наиболее приемлемого плана движения. Алгоритм MCTS осуществляет поиск безопасных кандидатов траекторий движения, а IRL используется для оценки этих траекторий, нацеленной на то, чтобы выбрать самую "человеческую". В процессе работы, MCTS построит дерево возможных действий, а IRL оценит каждую траекторию на основе множества функций оценки. Этот подход позволяет TreeIRL генерировать планы движения, которые близки к человеческим в течение различных ситуаций на дорогах. Архитектура TreeIRL включает в себя не только эти два основных компонента, но и модели расширенного IRL, которые учитывают тонкие особенности поведения водителя.
#### Результаты
Планировщик TreeIRL был оценен в широком спектре ситуаций на дорогах. Набор экспериментов включал в себя городскую среду с тяжелым трафиком, сценарии с адаптивным управлением скоростью (adaptive cruise control), сценарии с нарушениями полосы (cut-ins) и ситуации с работой светофора. В симуляционных экспериментах, TreeIRL показал лучший результат в безопасности, прогрессе и комфорте. В реальных условиях, он был протестирован на более чем 500 миль в метрополии Лас-Вегаса. Эксперименты показали, что TreeIRL избегает ошибок, которые часто допускаются другими планировщиками, и обеспечивает удовлетворительные результаты в плане human-likeness.
#### Значимость
Технология TreeIRL может быть применена в различных сценариях, включая вождение в городах, а также в задачах, требующих быстрого и эффективного решения. Одним из основных преимуществ является его безопасность и естественность поведения. Потенциал TreeIRL заключается в том, что он может использоваться в сочетании с другими методами, такими как reinforcement learning и imitation learning, для расширения возможностей в области планирования автономного вождения.
Abstract
We present TreeIRL, a novel planner for autonomous driving that combines
Monte Carlo tree search (MCTS) and inverse reinforcement learning (IRL) to
achieve state-of-the-art performance in simulation and in real-world driving.
The core idea is to use MCTS to find a promising set of safe candidate
trajectories and a deep IRL scoring function to select the most human-like
among them. We evaluate TreeIRL against both classical and state-of-the-art
planners in large-scale simulations and on 500+ miles of real-world autonomous
driving in the Las Vegas metropolitan area. Test scenarios include dense urban
traffic, adaptive cruise control, cut-ins, and traffic lights. TreeIRL achieves
the best overall performance, striking a balance between safety, progress,
comfort, and human-likeness. To our knowledge, our work is the first
demonstration of MCTS-based planning on public roads and underscores the
importance of evaluating planners across a diverse set of metrics and in
real-world environments. TreeIRL is highly extensible and could be further
improved with reinforcement learning and imitation learning, providing a
framework for exploring different combinations of classical and learning-based
approaches to solve the planning bottleneck in autonomous driving.
Ссылки и действия
Дополнительные ресурсы: