📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving

2025-08-13

Авторы:

Antonio Guillen-Perez

## Контекст Подвижность городов в настоящее время крайне зависит от инновационных технологий, способных обеспечить безопасность, эффективность и доступность транспортных систем. Одной из ключевых задач в области автономного вождения является создание надежных и устойчивых политик прохождения маршрутов с помощью обучения на основе данных. Однако использование реальных данных для обучения в реальном времени часто оказывается небезопасным и непрактичным. Большинство алгоритмов, основанных на Behavioral Cloning (BC), сталкиваются со сложностями в задаче копирования поведения эксперта, включая неустойчивость и ошибки, ускоряющиеся в замкнутых контрольных циклах. Это выделяет необходимость в разработке более устойчивых и оптимизированных подходов для обучения политик вождения. ## Метод Для развития эффективных политик вождения предлагается модель, основанная на Behavioral Cloning (BC), которая использует трансформеры для обработки структурированных, сущность-ориентированных представлений состояния. Эта модель достигает низкого уровня имитационной потери, но не справляется с длинными горизонтами симуляций. Для улучшения устойчивости используется алгоритм Conservative Q-Learning (CQL) в качестве метода Offline Reinforcement Learning (Offline RL). CQL применяется к той же структуре представления состояния, что и BC, но добавляет консервативную функцию значений, способную обеспечить более устойчивое поведение в реальных ситуациях. Эта модель также включает в себя настраиваемую функцию награды, которая помогает агенту избегать ошибок и выходов за допустимые состояния. ## Результаты В ходе экспериментов проводилась сравнительная оценка различных вариантов BC с трансформером и CQL на основе реальных данных. Результаты показали, что CQL не только увеличивает устойчивость политик, но и существенно повышает эффективность. Например, CQL демонстрирует 3.2 раза более высокую стабильность и 7.4 раз меньшую частоту столкновений по сравнению с лучшими результатами BC на 1,000 неизвестных сценах из Waymo Open Motion Dataset. Это демонстрирует, что Offline RL значительно превосходит BC в обучении политик для длинных горизонтов вождения. ## Значимость Предлагаемый подход может быть применен в различных сценариях автономного вождения, включая дорожные системы, парковки и управление транспортом. Он обеспечивает высокую устойчивость, снижает риск столкновений и повышает эффективность в различных реальных условиях. Это открывает новые возможности для безопасного и эффективного использования автономных систем в транспортных системах. ## Выводы Результаты показали, что Offline Reinforcement Learning, особенно CQL, является к

Annotation:

Learning robust driving policies from large-scale, real-world datasets is a central challenge in autonomous driving, as online data collection is often unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward approach to imitation learning, policies trained with BC are notoriously brittle and suffer from compounding errors in closed-loop execution. This work presents a comprehensive pipeline and a comparative study to address this limitation. We first develop a series of in...

ID: 2508.07029v1 cs.LG, cs.AI, cs.RO, cs.SY, eess.SY

arXiv PDF

Показано 41 - 41 из 41 записей