ME$^3$-BEV: Mamba-Enhanced Deep Reinforcement Learning for End-to-End Autonomous Driving with BEV-Perception
2508.06074v1
cs.AI, cs.RO
2025-08-12
Авторы:
Siyi Lu, Run Liu, Dongsheng Yang, Lei He
Резюме на русском
## Контекст
В последние годы автономное водительство стало востребованным направлением исследований, в связи с потребностью в безопасных, эффективных и автономных транспортных системах. Однако существуют несколько проблем, связанных с модульными подходами. Они обладают высоким уровнем интерпретируемости, но часто сталкиваются с проблемами ошибок в процессе передачи данных и сложностями синхронизации различных модулей. Энд-то-энд (end-to-end) подходы, в свою очередь, упрощают дизайн системы, но часто сталкиваются с проблемами вычислительных ограничений. Методы, использующие bird's-eye view (BEV), становятся все более популярными в силу их способности предоставлять компактное представление окружающих объектов и дорожной среды, что позволяет эффективно использовать информацию. Наша мотивация заключается в создании усовершенствованного подхода, который объединяет преимущества BEV-представления с мощным аппаратом глубокого учёта на основе DRL.
## Метод
Мы предлагаем **ME$^3$-BEV**, новую модель, которая использует глубокий учёт на основе DRL для управления автомобилем в реальном времени. Основной компонентом является **Mamba-BEV**, модель, основанная на BEV-представлении, которая способна эффективно извлекать и объединять спектр спектров временных признаков. Сеть **Mamba-BEV** создана для того, чтобы объединить BEV-представление с помощью Mamba-фреймворка для моделирования хронологических признаков, что позволяет системе более точно понять и моделировать длинные зависимости в окружающих объектах. Мы также интегрировали методы визуализации высокоразмерных признаков с помощью семантической сегментации, что позволяет более ясно понять, что именно модель учитывает при принятии решений. Модель **ME$^3$-BEV** использует **Mamba-BEV** в качестве входной структуры для DRL, что дает более высокую точность в динамичных ситуациях на дорогах.
## Результаты
Мы проводили эксперименты на **CARLA Simulator**, где получили результаты, показывающие высокую эффективность нашего подхода. Модель **ME$^3$-BEV** демонстрирует значительное сокращение количества столкновений и улучшение точности траекторий по сравнению с существующими алгоритмами. Также было показано, что наш подход обеспечивает более высокую эффективность в обработке данных и снижение времени реакции, что важно для реального времени. Мы также показали, что визуализации с помощью семантической сегментации повышают интерпретируемость модели, что делает её более доступной для исследователей и разработчиков.
## Значимость
Мы видим, что **ME$^3$-BEV** может быть применено в опе
Abstract
Autonomous driving systems face significant challenges in perceiving complex
environments and making real-time decisions. Traditional modular approaches,
while offering interpretability, suffer from error propagation and coordination
issues, whereas end-to-end learning systems can simplify the design but face
computational bottlenecks. This paper presents a novel approach to autonomous
driving using deep reinforcement learning (DRL) that integrates bird's-eye view
(BEV) perception for enhanced real-time decision-making. We introduce the
\texttt{Mamba-BEV} model, an efficient spatio-temporal feature extraction
network that combines BEV-based perception with the Mamba framework for
temporal feature modeling. This integration allows the system to encode vehicle
surroundings and road features in a unified coordinate system and accurately
model long-range dependencies. Building on this, we propose the
\texttt{ME$^3$-BEV} framework, which utilizes the \texttt{Mamba-BEV} model as a
feature input for end-to-end DRL, achieving superior performance in dynamic
urban driving scenarios. We further enhance the interpretability of the model
by visualizing high-dimensional features through semantic segmentation,
providing insight into the learned representations. Extensive experiments on
the CARLA simulator demonstrate that \texttt{ME$^3$-BEV} outperforms existing
models across multiple metrics, including collision rate and trajectory
accuracy, offering a promising solution for real-time autonomous driving.
Ссылки и действия
Дополнительные ресурсы: