TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning

2509.13579v1 cs.RO, cs.AI, cs.LG 2025-09-19
Авторы:

Momchil S. Tomov, Sang Uk Lee, Hansford Hendrago, Jinwook Huh, Teawon Han, Forbes Howington, Rafael da Silva, Gianmarco Bernasconi, Marc Heim, Samuel Findler, Xiaonan Ji, Alexander Boule, Michael Napoli, Kuo Chen, Jesse Miller, Boaz Floor, Yunqing Hu

Резюме на русском

#### Контекст На протяжении последних десятилетий, автоматизированные системы управления транспортом, такие как autopilots или планировщики для автономного вождения, являются центральной областью исследований в технике и искусственном интеллекте. Однако столкнуться с проблемами, такими как эффективность, безопасность и природность поведения, остается сложным заданием. Эти проблемы возникают в ситуациях, когда алгоритмы должны осуществлять рациональные решения в сложных и часто непредсказуемых условиях, таких как городский транспорт. TreeIRL предлагает решение этой проблемы, объединяя две мощные методологии: Monte Carlo tree search (MCTS) и inverse reinforcement learning (IRL). Это позволяет обеспечить безопасность, прогресс и комфорт вождения, а также естественность поведения в различных ситуациях. #### Метод TreeIRL сочетает в себе MCTS и IRL для выбора наиболее приемлемого плана движения. Алгоритм MCTS осуществляет поиск безопасных кандидатов траекторий движения, а IRL используется для оценки этих траекторий, нацеленной на то, чтобы выбрать самую "человеческую". В процессе работы, MCTS построит дерево возможных действий, а IRL оценит каждую траекторию на основе множества функций оценки. Этот подход позволяет TreeIRL генерировать планы движения, которые близки к человеческим в течение различных ситуаций на дорогах. Архитектура TreeIRL включает в себя не только эти два основных компонента, но и модели расширенного IRL, которые учитывают тонкие особенности поведения водителя. #### Результаты Планировщик TreeIRL был оценен в широком спектре ситуаций на дорогах. Набор экспериментов включал в себя городскую среду с тяжелым трафиком, сценарии с адаптивным управлением скоростью (adaptive cruise control), сценарии с нарушениями полосы (cut-ins) и ситуации с работой светофора. В симуляционных экспериментах, TreeIRL показал лучший результат в безопасности, прогрессе и комфорте. В реальных условиях, он был протестирован на более чем 500 миль в метрополии Лас-Вегаса. Эксперименты показали, что TreeIRL избегает ошибок, которые часто допускаются другими планировщиками, и обеспечивает удовлетворительные результаты в плане human-likeness. #### Значимость Технология TreeIRL может быть применена в различных сценариях, включая вождение в городах, а также в задачах, требующих быстрого и эффективного решения. Одним из основных преимуществ является его безопасность и естественность поведения. Потенциал TreeIRL заключается в том, что он может использоваться в сочетании с другими методами, такими как reinforcement learning и imitation learning, для расширения возможностей в области планирования автономного вождения.

Abstract

We present TreeIRL, a novel planner for autonomous driving that combines Monte Carlo tree search (MCTS) and inverse reinforcement learning (IRL) to achieve state-of-the-art performance in simulation and in real-world driving. The core idea is to use MCTS to find a promising set of safe candidate trajectories and a deep IRL scoring function to select the most human-like among them. We evaluate TreeIRL against both classical and state-of-the-art planners in large-scale simulations and on 500+ miles of real-world autonomous driving in the Las Vegas metropolitan area. Test scenarios include dense urban traffic, adaptive cruise control, cut-ins, and traffic lights. TreeIRL achieves the best overall performance, striking a balance between safety, progress, comfort, and human-likeness. To our knowledge, our work is the first demonstration of MCTS-based planning on public roads and underscores the importance of evaluating planners across a diverse set of metrics and in real-world environments. TreeIRL is highly extensible and could be further improved with reinforcement learning and imitation learning, providing a framework for exploring different combinations of classical and learning-based approaches to solve the planning bottleneck in autonomous driving.

Ссылки и действия