GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving

2508.06113v1 cs.CV, cs.RO 2025-08-12

Авторы:

Jian Wang, Chaokang Jiang, Haitao Xu

Резюме на русском

#### Контекст Исследование автоматизированных систем управления транспортными средствами находится в сердце развития технологий в области робототехники и искусственного интеллекта. Нейронные сети, адаптированные для энд-то-энд автономного вождения, становятся важным инструментом для обработки геометрических данных и принятия решений во время движения. Однако существуют значительные проблемы, связанные с недостаточной скоростью обработки, сложностью математических моделей и неэффективностью использования ресурсов. Одной из основных проблем является неэффективность преобразователей в контексте Bird's Eye View (BEV) представлений, которые требуют высокой вычислительной сложности и не полностью используют возможности специфических требований к пространственной структуре. #### Метод GMF-Drive представляет собой новую модель энд-то-энд автономного вождения, основанную на Gated Mamba Fusion (GM-Fusion). Метод заменяет обычные transformer-based модели на более эффективную структуру, использующую state-space models (SSM) с динамической адаптивной структурой для BEV-репрезентаций. Модель использует новое представление LiDAR-данных в формате pillars с геометрическими и статистическими признаками. Эта архитектура позволяет эффективно обрабатывать данные, сохраняя пространственную структуру и уменьшая вычислительные затраты. Благодаря использованию новых кодировок и адаптивных методов объединения, GMF-Drive эффективно моделирует и захватывает длинные зависимости в 3D-представлении. #### Результаты Исследователи проводили эксперименты на NAVSIM benchmark, показав значительное превосходство GMF-Drive над DiffusionDrive и другими современными моделями. Модель GMF-Drive показала существенное улучшение в обработке BEV-данных и решении задач движения в тяжелых условиях. Особое внимание уделено абляционным исследованиям, которые подтвердили эффективность каждого компонента модели. Например, SSM показал лучший результат по сравнению с transformer-based моделями в области эффективности и точности. #### Значимость GMF-Drive может быть применено в различных сценариях автономного вождения, включая системы навигации, системы замедления водительских решений и системы безопасности. Основное преимущество GMF-Drive заключается в своей высокой эффективности и точности, которая достигается благодаря инновационной архитектуре и применению SSMs. Это может привести к уменьшению ресурсоемкости моделей, улучшению времени реакции и увеличению безопасности в автотранспорте. #### Выводы GMF-Drive достигает рекордных результатов в области энд-то-энд автономного вождения, превзойдя ранее применявшиеся модели.

Abstract

Diffusion-based models are redefining the state-of-the-art in end-to-end autonomous driving, yet their performance is increasingly hampered by a reliance on transformer-based fusion. These architectures face fundamental limitations: quadratic computational complexity restricts the use of high-resolution features, and a lack of spatial priors prevents them from effectively modeling the inherent structure of Bird's Eye View (BEV) representations. This paper introduces GMF-Drive (Gated Mamba Fusion for Driving), an end-to-end framework that overcomes these challenges through two principled innovations. First, we supersede the information-limited histogram-based LiDAR representation with a geometrically-augmented pillar format encoding shape descriptors and statistical features, preserving critical 3D geometric details. Second, we propose a novel hierarchical gated mamba fusion (GM-Fusion) architecture that substitutes an expensive transformer with a highly efficient, spatially-aware state-space model (SSM). Our core BEV-SSM leverages directional sequencing and adaptive fusion mechanisms to capture long-range dependencies with linear complexity, while explicitly respecting the unique spatial properties of the driving scene. Extensive experiments on the challenging NAVSIM benchmark demonstrate that GMF-Drive achieves a new state-of-the-art performance, significantly outperforming DiffusionDrive. Comprehensive ablation studies validate the efficacy of each component, demonstrating that task-specific SSMs can surpass a general-purpose transformer in both performance and efficiency for autonomous driving.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация