Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning
2508.18397v1
cs.RO, cs.AI, cs.LG
2025-08-28
Авторы:
Antonio Guillen-Perez
Резюме на русском
#### Контекст
На сегодняшний день, Offline Reinforcement Learning (RL) является важной методикой для обучения автономных агентов, таких как автомобили, с использованием больших наборов реальных данных. Однако в этих данных существует чрезвычайная несбалансированность: большинство сценариев (например, плавное вождение по трассе) встречается зачастую, в то время как редкие сценарии (например, столкновения или неожиданные обстоятельства) редко встречаются. Этот дисбаланс приводит к появлению слабых и небезопасных политик при использовании стандартных методов равномерной выборки данных. В данной работе мы адресуем эту проблему, осуществляя систематическое сравнительное исследование подходов к данной проблеме, нацеленных на фокусировку обучения на самых "информативных" сценариях.
#### Метод
Мы рассмотрели шесть различных стратегий взвешивания данных, разделенных на три класса: те, которые основываются на логических правилах (heuristic-based), те, которые основываются на неуверенности модели (uncertainty-based), и те, которые основываются на поведении агента (behavior-based). Для каждого класса мы определили конкретные метрики для оценки "критичности" данных в разных слоях анализа: на уровне отдельных шагов и в целом на уровне сценария. Используя семь агентов, обученных с использованием Conservative Q-Learning (CQL), мы проводили эксперименты в хорошо проверенной симуляционной среде Waymax. Мы также использовали архитектуру с агрегированием внимания, которая сочетает в себе возможность учитывать детали в индивидуальных моментах времени, а также контекст в целом сценарии.
#### Результаты
Использование всех стратегий взвешивания данных приводило к значительным улучшениям по сравнению с базовым методом равномерной выборки. Особенно заметные были результаты использования неуверенности модели в качестве признака критичности: этот подход привел к снижению частоты столкновений в почти три раза, с 16,0% до 5,5%. Было также выявлено конфликтное соотношение: стратегии, основанные на взвешивании на уровне отдельных моментов времени, демонстрировали лучший результат в терминах реактивной безопасности, тогда как стратегии уровня сценария давали лучшие результаты в длинных горизонтах планирования.
#### Значимость
Наши результаты продемонстрировали, что интеллектуальная, неравномерная выборка данных является ключевым компонентом для создания безопасных и надежных автономных агентов. Этот подход имеет широкие применения в области автономного вождения, благодаря своей способности адаптироваться к реальной сложности вождения. Также, наши результаты могут быть использованы для улучшения обучения в других задачах, где име
Abstract
Offline Reinforcement Learning (RL) presents a promising paradigm for
training autonomous vehicle (AV) planning policies from large-scale, real-world
driving logs. However, the extreme data imbalance in these logs, where mundane
scenarios vastly outnumber rare "long-tail" events, leads to brittle and unsafe
policies when using standard uniform data sampling. In this work, we address
this challenge through a systematic, large-scale comparative study of data
curation strategies designed to focus the learning process on information-rich
samples. We investigate six distinct criticality weighting schemes which are
categorized into three families: heuristic-based, uncertainty-based, and
behavior-based. These are evaluated at two temporal scales, the individual
timestep and the complete scenario. We train seven goal-conditioned
Conservative Q-Learning (CQL) agents with a state-of-the-art, attention-based
architecture and evaluate them in the high-fidelity Waymax simulator. Our
results demonstrate that all data curation methods significantly outperform the
baseline. Notably, data-driven curation using model uncertainty as a signal
achieves the most significant safety improvements, reducing the collision rate
by nearly three-fold (from 16.0% to 5.5%). Furthermore, we identify a clear
trade-off where timestep-level weighting excels at reactive safety while
scenario-level weighting improves long-horizon planning. Our work provides a
comprehensive framework for data curation in Offline RL and underscores that
intelligent, non-uniform sampling is a critical component for building safe and
reliable autonomous agents.
Ссылки и действия
Дополнительные ресурсы: