GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
2508.06113v1
cs.CV, cs.RO
2025-08-12
Авторы:
Jian Wang, Chaokang Jiang, Haitao Xu
Резюме на русском
#### Контекст
Исследование автоматизированных систем управления транспортными средствами находится в сердце развития технологий в области робототехники и искусственного интеллекта. Нейронные сети, адаптированные для энд-то-энд автономного вождения, становятся важным инструментом для обработки геометрических данных и принятия решений во время движения. Однако существуют значительные проблемы, связанные с недостаточной скоростью обработки, сложностью математических моделей и неэффективностью использования ресурсов. Одной из основных проблем является неэффективность преобразователей в контексте Bird's Eye View (BEV) представлений, которые требуют высокой вычислительной сложности и не полностью используют возможности специфических требований к пространственной структуре.
#### Метод
GMF-Drive представляет собой новую модель энд-то-энд автономного вождения, основанную на Gated Mamba Fusion (GM-Fusion). Метод заменяет обычные transformer-based модели на более эффективную структуру, использующую state-space models (SSM) с динамической адаптивной структурой для BEV-репрезентаций. Модель использует новое представление LiDAR-данных в формате pillars с геометрическими и статистическими признаками. Эта архитектура позволяет эффективно обрабатывать данные, сохраняя пространственную структуру и уменьшая вычислительные затраты. Благодаря использованию новых кодировок и адаптивных методов объединения, GMF-Drive эффективно моделирует и захватывает длинные зависимости в 3D-представлении.
#### Результаты
Исследователи проводили эксперименты на NAVSIM benchmark, показав значительное превосходство GMF-Drive над DiffusionDrive и другими современными моделями. Модель GMF-Drive показала существенное улучшение в обработке BEV-данных и решении задач движения в тяжелых условиях. Особое внимание уделено абляционным исследованиям, которые подтвердили эффективность каждого компонента модели. Например, SSM показал лучший результат по сравнению с transformer-based моделями в области эффективности и точности.
#### Значимость
GMF-Drive может быть применено в различных сценариях автономного вождения, включая системы навигации, системы замедления водительских решений и системы безопасности. Основное преимущество GMF-Drive заключается в своей высокой эффективности и точности, которая достигается благодаря инновационной архитектуре и применению SSMs. Это может привести к уменьшению ресурсоемкости моделей, улучшению времени реакции и увеличению безопасности в автотранспорте.
#### Выводы
GMF-Drive достигает рекордных результатов в области энд-то-энд автономного вождения, превзойдя ранее применявшиеся модели.
Abstract
Diffusion-based models are redefining the state-of-the-art in end-to-end
autonomous driving, yet their performance is increasingly hampered by a
reliance on transformer-based fusion. These architectures face fundamental
limitations: quadratic computational complexity restricts the use of
high-resolution features, and a lack of spatial priors prevents them from
effectively modeling the inherent structure of Bird's Eye View (BEV)
representations. This paper introduces GMF-Drive (Gated Mamba Fusion for
Driving), an end-to-end framework that overcomes these challenges through two
principled innovations. First, we supersede the information-limited
histogram-based LiDAR representation with a geometrically-augmented pillar
format encoding shape descriptors and statistical features, preserving critical
3D geometric details. Second, we propose a novel hierarchical gated mamba
fusion (GM-Fusion) architecture that substitutes an expensive transformer with
a highly efficient, spatially-aware state-space model (SSM). Our core BEV-SSM
leverages directional sequencing and adaptive fusion mechanisms to capture
long-range dependencies with linear complexity, while explicitly respecting the
unique spatial properties of the driving scene. Extensive experiments on the
challenging NAVSIM benchmark demonstrate that GMF-Drive achieves a new
state-of-the-art performance, significantly outperforming DiffusionDrive.
Comprehensive ablation studies validate the efficacy of each component,
demonstrating that task-specific SSMs can surpass a general-purpose transformer
in both performance and efficiency for autonomous driving.
Ссылки и действия
Дополнительные ресурсы: