Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving

2509.04712v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY 2025-09-09

Авторы:

Zhihao Zhang, Chengyang Peng, Ekim Yurtsever, Keith A. Redmill

Резюме на русском

## Контекст Современные автомобили с автономным управлением широко используют методы машинного обучения, особенно техники оптимизации подкрепления (Reinforcement Learning, RL), для построения эффективных стратегий управления. Однако, RL-агенты часто сталкиваются с проблемами, такими как неэффективность обучения и недостаточность эксплорейшена, что снижает их эффективность в обнаружении оптимальных стратегий управления. Эти проблемы особенно заметны при обучении агентов для задач динамического управления, таких как взаимодействие с другими участниками дорожного движения. Нашим целью является разработка метода, который улучшит обучение RL-систем, используя примерные демонстрации, не требующие высокого уровня оптимизации. ## Метод Мы предлагаем систему, использующую подход, основанный на комбинации Soft Actor Critic (SAC) с правильной демонстрацией. Для этого мы используем правильный контроллер смены полос, который демонстрирует простую стратегию для смены полос, которую RL-система может использовать как начальную точку для обучения. Этот правильный контроллер вводится как дополнение к алгоритму SAC, который руководствует агента в сложных ситуациях на дороге. Мы полагаемся на демонстрационный подход, который значительно улучшает эффективность обучения, особенно в случаях, когда водительские стратегии должны быть устойчивы и стремятся к минимизации ошибок. ## Результаты Мы провели эксперименты на симуляторе автомобиля с автономным управлением, сравнив нашу систему с агентом, обученным только с помощью SAC. Результаты показали, что интеграция демонстрационного контроллера с SAC приводит к значительному улучшению показателей управления, включая более стабильное взаимодействие с другими транспортными средствами и более эффективное обучение, особенно в сложных условиях. Эти результаты подтверждают, что демонстрационный подход может значительно улучшить скорость и качество обучения RL-систем в автономном вождении. ## Значимость Наше решение может быть применено в сфере автономного вождения, где необходимо обеспечить безопасность и эффективность в сложных средах. Благодаря демонстрационному подходу, мы можем уменьшить время обучения и повысить точность стратегий управления. Этот подход может быть расширен для других задач, включая логистику, системы самоуправляемых мобильных устройств и другие ситуации, где необходимо оптимизировать стратегии взаимодействия. ## Выводы Мы разработали метод, который использует примерные демонстрации для улучшения обучения RL-систем в автономном вождении. Этот подход позволяет улучшить эффективность и безопасность д

Abstract

Automated vehicle control using reinforcement learning (RL) has attracted significant attention due to its potential to learn driving policies through environment interaction. However, RL agents often face training challenges in sample efficiency and effective exploration, making it difficult to discover an optimal driving strategy. To address these issues, we propose guiding the RL driving agent with a demonstration policy that need not be a highly optimized or expert-level controller. Specifically, we integrate a rule-based lane change controller with the Soft Actor Critic (SAC) algorithm to enhance exploration and learning efficiency. Our approach demonstrates improved driving performance and can be extended to other driving scenarios that can similarly benefit from demonstration-based guidance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Architecture Is All You Need: Diversity-Enabled Sweet Spots for Robust Humanoid ...

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier...

Architecture Is All You Need: Diversity-Enabled Sweet Spots for Robust Humanoid ...

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier...

PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interacti...

Навигация