Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning

2508.18397v1 cs.RO, cs.AI, cs.LG 2025-08-28
Авторы:

Antonio Guillen-Perez

Резюме на русском

#### Контекст На сегодняшний день, Offline Reinforcement Learning (RL) является важной методикой для обучения автономных агентов, таких как автомобили, с использованием больших наборов реальных данных. Однако в этих данных существует чрезвычайная несбалансированность: большинство сценариев (например, плавное вождение по трассе) встречается зачастую, в то время как редкие сценарии (например, столкновения или неожиданные обстоятельства) редко встречаются. Этот дисбаланс приводит к появлению слабых и небезопасных политик при использовании стандартных методов равномерной выборки данных. В данной работе мы адресуем эту проблему, осуществляя систематическое сравнительное исследование подходов к данной проблеме, нацеленных на фокусировку обучения на самых "информативных" сценариях. #### Метод Мы рассмотрели шесть различных стратегий взвешивания данных, разделенных на три класса: те, которые основываются на логических правилах (heuristic-based), те, которые основываются на неуверенности модели (uncertainty-based), и те, которые основываются на поведении агента (behavior-based). Для каждого класса мы определили конкретные метрики для оценки "критичности" данных в разных слоях анализа: на уровне отдельных шагов и в целом на уровне сценария. Используя семь агентов, обученных с использованием Conservative Q-Learning (CQL), мы проводили эксперименты в хорошо проверенной симуляционной среде Waymax. Мы также использовали архитектуру с агрегированием внимания, которая сочетает в себе возможность учитывать детали в индивидуальных моментах времени, а также контекст в целом сценарии. #### Результаты Использование всех стратегий взвешивания данных приводило к значительным улучшениям по сравнению с базовым методом равномерной выборки. Особенно заметные были результаты использования неуверенности модели в качестве признака критичности: этот подход привел к снижению частоты столкновений в почти три раза, с 16,0% до 5,5%. Было также выявлено конфликтное соотношение: стратегии, основанные на взвешивании на уровне отдельных моментов времени, демонстрировали лучший результат в терминах реактивной безопасности, тогда как стратегии уровня сценария давали лучшие результаты в длинных горизонтах планирования. #### Значимость Наши результаты продемонстрировали, что интеллектуальная, неравномерная выборка данных является ключевым компонентом для создания безопасных и надежных автономных агентов. Этот подход имеет широкие применения в области автономного вождения, благодаря своей способности адаптироваться к реальной сложности вождения. Также, наши результаты могут быть использованы для улучшения обучения в других задачах, где име

Abstract

Offline Reinforcement Learning (RL) presents a promising paradigm for training autonomous vehicle (AV) planning policies from large-scale, real-world driving logs. However, the extreme data imbalance in these logs, where mundane scenarios vastly outnumber rare "long-tail" events, leads to brittle and unsafe policies when using standard uniform data sampling. In this work, we address this challenge through a systematic, large-scale comparative study of data curation strategies designed to focus the learning process on information-rich samples. We investigate six distinct criticality weighting schemes which are categorized into three families: heuristic-based, uncertainty-based, and behavior-based. These are evaluated at two temporal scales, the individual timestep and the complete scenario. We train seven goal-conditioned Conservative Q-Learning (CQL) agents with a state-of-the-art, attention-based architecture and evaluate them in the high-fidelity Waymax simulator. Our results demonstrate that all data curation methods significantly outperform the baseline. Notably, data-driven curation using model uncertainty as a signal achieves the most significant safety improvements, reducing the collision rate by nearly three-fold (from 16.0% to 5.5%). Furthermore, we identify a clear trade-off where timestep-level weighting excels at reactive safety while scenario-level weighting improves long-horizon planning. Our work provides a comprehensive framework for data curation in Offline RL and underscores that intelligent, non-uniform sampling is a critical component for building safe and reliable autonomous agents.

Ссылки и действия