CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine
2509.15968v1
cs.RO, cs.CV
2025-09-23
Авторы:
Shiyu Fang, Yiming Cui, Haoyang Liang, Chen Lv, Peng Hang, Jian Sun
Резюме на русском
## Контекст
Автономные системы управления транспортными средствами (Autonomous Driving, AD) стали существенно продвинуться в последние годы, но их производительность в редких, возможно опасных сценариях (long-tail scenarios) остается недостаточной. Эти сценарии часто приводят к авариям, но традиционные методы трудно применяются для их эффективного решения. Функциональность Vision-Language Action (VLA) моделей, включающих мощные способности разума, остается недостаточно эффективной из-за ограниченности качественных данных и неэффективности обучения в трудных условиях. Чтобы улучшить поведение моделей в таких сценариях, необходимо разработать методы, позволяющие моделям учиться непосредственно от опыта взаимодействия с человеком. В этой статье предлагается CoReVLA, современная система, решающая проблему научного и практического значения в сфере AD.
## Метод
CoReVLA представляет собой современную систему с двухступенчатой архитектурой, основанной на коллекции и оптимизации. На первом этапе, модель обучается на смеси открытых наборов данных водительских QA-задач, чтобы получить базовое понимание проблем вождения. На втором этапе, данные, собираемые в симуляционной среде Cave Automatic Virtual Environment (CAVE), используются для сбора реального данных, связанных с водительскими толчками (driver takeovers), которые отражают редкие, нестандартные сценарии. Водительские толчки используются как образцы для рефинирования модели с помощью технологии Direct Preference Optimization (DPO). DPO позволяет модели учиться непосредственно от желаний и предпочтений человека, избегая проблем, связанных с корректировкой ручного набора наград.
## Результаты
Эксперименты проводились в двух режимах: открытом цикле (open-loop) и замкнутом цикле (closed-loop). На классической бенчмарк-платформе Bench2Drive, CoReVLA показала значительный прогресс по сравнению с современными системами. Она достигла значения Driving Score (DS) в 72.18 и Success Rate (SR) в 50% при тестах в long-tail сценариях, превосходя соревнующиеся модели на 7.96 DS и 15% SR. Также, исследования показали, что CoReVLA может продолжительно улучшать свои результаты в схожих сценариях, используя прошлый опыт, собранный во время толчков водителя.
## Значимость
Система CoReVLA имеет широкий спектр потенциальных применений в автономном транспорте, в том числе в улучшении решения редких и опасных сценариев. Ее преимущества заключаются в улучшении безопасности и эффективности AD-систем, а также в предотвращении аварийных ситуаций. В будущем, модель может быть расширена для работы в различных видах транспорта и интегрирована с другими технологиями для достижения более высокого уровня автоматизаци
Abstract
Autonomous Driving (AD) systems have made notable progress, but their
performance in long-tail, safety-critical scenarios remains limited. These rare
cases contribute a disproportionate number of accidents. Vision-Language Action
(VLA) models have strong reasoning abilities and offer a potential solution,
but their effectiveness is limited by the lack of high-quality data and
inefficient learning in such conditions. To address these challenges, we
propose CoReVLA, a continual learning end-to-end autonomous driving framework
that improves the performance in long-tail scenarios through a dual-stage
process of data Collection and behavior Refinement. First, the model is jointly
fine-tuned on a mixture of open-source driving QA datasets, allowing it to
acquire a foundational understanding of driving scenarios. Next, CoReVLA is
deployed within the Cave Automatic Virtual Environment (CAVE) simulation
platform, where driver takeover data is collected from real-time interactions.
Each takeover indicates a long-tail scenario that CoReVLA fails to handle
reliably. Finally, the model is refined via Direct Preference Optimization
(DPO), allowing it to learn directly from human preferences and thereby avoid
reward hacking caused by manually designed rewards. Extensive open-loop and
closed-loop experiments demonstrate that the proposed CoReVLA model can
accurately perceive driving scenarios and make appropriate decisions. On the
Bench2Drive benchmark, CoReVLA achieves a Driving Score (DS) of 72.18 and a
Success Rate (SR) of 50%, outperforming state-of-the-art methods by 7.96 DS and
15% SR under long-tail, safety-critical scenarios. Furthermore, case studies
demonstrate the model's ability to continually improve its performance in
similar failure-prone scenarios by leveraging past takeover experiences. All
codea and preprocessed datasets are available at:
https://github.com/FanGShiYuu/CoReVLA
Ссылки и действия
Дополнительные ресурсы: