Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving
2509.04712v1
cs.RO, cs.AI, cs.LG, cs.SY, eess.SY
2025-09-09
Авторы:
Zhihao Zhang, Chengyang Peng, Ekim Yurtsever, Keith A. Redmill
Резюме на русском
## Контекст
Современные автомобили с автономным управлением широко используют методы машинного обучения, особенно техники оптимизации подкрепления (Reinforcement Learning, RL), для построения эффективных стратегий управления. Однако, RL-агенты часто сталкиваются с проблемами, такими как неэффективность обучения и недостаточность эксплорейшена, что снижает их эффективность в обнаружении оптимальных стратегий управления. Эти проблемы особенно заметны при обучении агентов для задач динамического управления, таких как взаимодействие с другими участниками дорожного движения. Нашим целью является разработка метода, который улучшит обучение RL-систем, используя примерные демонстрации, не требующие высокого уровня оптимизации.
## Метод
Мы предлагаем систему, использующую подход, основанный на комбинации Soft Actor Critic (SAC) с правильной демонстрацией. Для этого мы используем правильный контроллер смены полос, который демонстрирует простую стратегию для смены полос, которую RL-система может использовать как начальную точку для обучения. Этот правильный контроллер вводится как дополнение к алгоритму SAC, который руководствует агента в сложных ситуациях на дороге. Мы полагаемся на демонстрационный подход, который значительно улучшает эффективность обучения, особенно в случаях, когда водительские стратегии должны быть устойчивы и стремятся к минимизации ошибок.
## Результаты
Мы провели эксперименты на симуляторе автомобиля с автономным управлением, сравнив нашу систему с агентом, обученным только с помощью SAC. Результаты показали, что интеграция демонстрационного контроллера с SAC приводит к значительному улучшению показателей управления, включая более стабильное взаимодействие с другими транспортными средствами и более эффективное обучение, особенно в сложных условиях. Эти результаты подтверждают, что демонстрационный подход может значительно улучшить скорость и качество обучения RL-систем в автономном вождении.
## Значимость
Наше решение может быть применено в сфере автономного вождения, где необходимо обеспечить безопасность и эффективность в сложных средах. Благодаря демонстрационному подходу, мы можем уменьшить время обучения и повысить точность стратегий управления. Этот подход может быть расширен для других задач, включая логистику, системы самоуправляемых мобильных устройств и другие ситуации, где необходимо оптимизировать стратегии взаимодействия.
## Выводы
Мы разработали метод, который использует примерные демонстрации для улучшения обучения RL-систем в автономном вождении. Этот подход позволяет улучшить эффективность и безопасность д
Abstract
Automated vehicle control using reinforcement learning (RL) has attracted
significant attention due to its potential to learn driving policies through
environment interaction. However, RL agents often face training challenges in
sample efficiency and effective exploration, making it difficult to discover an
optimal driving strategy. To address these issues, we propose guiding the RL
driving agent with a demonstration policy that need not be a highly optimized
or expert-level controller. Specifically, we integrate a rule-based lane change
controller with the Soft Actor Critic (SAC) algorithm to enhance exploration
and learning efficiency. Our approach demonstrates improved driving performance
and can be extended to other driving scenarios that can similarly benefit from
demonstration-based guidance.