From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving
2508.07029v1
cs.LG, cs.AI, cs.RO, cs.SY, eess.SY
2025-08-13
Авторы:
Antonio Guillen-Perez
Резюме на русском
## Контекст
Подвижность городов в настоящее время крайне зависит от инновационных технологий, способных обеспечить безопасность, эффективность и доступность транспортных систем. Одной из ключевых задач в области автономного вождения является создание надежных и устойчивых политик прохождения маршрутов с помощью обучения на основе данных. Однако использование реальных данных для обучения в реальном времени часто оказывается небезопасным и непрактичным. Большинство алгоритмов, основанных на Behavioral Cloning (BC), сталкиваются со сложностями в задаче копирования поведения эксперта, включая неустойчивость и ошибки, ускоряющиеся в замкнутых контрольных циклах. Это выделяет необходимость в разработке более устойчивых и оптимизированных подходов для обучения политик вождения.
## Метод
Для развития эффективных политик вождения предлагается модель, основанная на Behavioral Cloning (BC), которая использует трансформеры для обработки структурированных, сущность-ориентированных представлений состояния. Эта модель достигает низкого уровня имитационной потери, но не справляется с длинными горизонтами симуляций. Для улучшения устойчивости используется алгоритм Conservative Q-Learning (CQL) в качестве метода Offline Reinforcement Learning (Offline RL). CQL применяется к той же структуре представления состояния, что и BC, но добавляет консервативную функцию значений, способную обеспечить более устойчивое поведение в реальных ситуациях. Эта модель также включает в себя настраиваемую функцию награды, которая помогает агенту избегать ошибок и выходов за допустимые состояния.
## Результаты
В ходе экспериментов проводилась сравнительная оценка различных вариантов BC с трансформером и CQL на основе реальных данных. Результаты показали, что CQL не только увеличивает устойчивость политик, но и существенно повышает эффективность. Например, CQL демонстрирует 3.2 раза более высокую стабильность и 7.4 раз меньшую частоту столкновений по сравнению с лучшими результатами BC на 1,000 неизвестных сценах из Waymo Open Motion Dataset. Это демонстрирует, что Offline RL значительно превосходит BC в обучении политик для длинных горизонтов вождения.
## Значимость
Предлагаемый подход может быть применен в различных сценариях автономного вождения, включая дорожные системы, парковки и управление транспортом. Он обеспечивает высокую устойчивость, снижает риск столкновений и повышает эффективность в различных реальных условиях. Это открывает новые возможности для безопасного и эффективного использования автономных систем в транспортных системах.
## Выводы
Результаты показали, что Offline Reinforcement Learning, особенно CQL, является к
Abstract
Learning robust driving policies from large-scale, real-world datasets is a
central challenge in autonomous driving, as online data collection is often
unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward
approach to imitation learning, policies trained with BC are notoriously
brittle and suffer from compounding errors in closed-loop execution. This work
presents a comprehensive pipeline and a comparative study to address this
limitation. We first develop a series of increasingly sophisticated BC
baselines, culminating in a Transformer-based model that operates on a
structured, entity-centric state representation. While this model achieves low
imitation loss, we show that it still fails in long-horizon simulations. We
then demonstrate that by applying a state-of-the-art Offline Reinforcement
Learning algorithm, Conservative Q-Learning (CQL), to the same data and
architecture, we can learn a significantly more robust policy. Using a
carefully engineered reward function, the CQL agent learns a conservative value
function that enables it to recover from minor errors and avoid
out-of-distribution states. In a large-scale evaluation on 1,000 unseen
scenarios from the Waymo Open Motion Dataset, our final CQL agent achieves a
3.2x higher success rate and a 7.4x lower collision rate than the strongest BC
baseline, proving that an offline RL approach is critical for learning robust,
long-horizon driving policies from static expert data.