Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?

2509.07593v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY 2025-09-11
Авторы:

Gavin Tao, Yinuo Wang, Jinzhao Zhou

Резюме на русском

## Контекст Многие современные системы моторного управления построены на базе методов реконструкции перцепции и активного управления, но не все эти системы могут обеспечить значительную производительность при сочетании разных типов входных данных. Особенностью таких систем является то, что они часто не могут эффективно обрабатывать данные локального восприятия (проприорецепции) и внешнего восприятия (ексетероцепции) одновременно, что ограничивает их возможности в широком спектре задач. Неверно управляемые системы моторного управления могут привести к нежелательным случайным ситуациям, таким как коллизии, неудачные попытки удержания баланса и другие неблагоприятные результаты. На практике это значит, что необходимо разработать более универсальные и эффективные системы моторного управления, которые могут обрабатывать одновременно большое количество входных данных с различных источников, включая как локальные, так и внешние данные. ## Метод Мы предлагаем развитие фреймворка для решения задач моторного управления с использованием **SSD-Mamba2**, который является современным селективным рекуррентным сетным блоком. Эта модель применяет преобразование стойких состояний для обработки данных входов в виде тензоров, и эти тензоры затем используются в качестве входных данных для алгоритмов моторного управления. Архитектура фреймворка включает в себя модульное сеттное устройство, которое использует **state-space duality** (SSD) для обеспечения рекуррентных и конволюционных процессов в сетке. Таким образом, модель может обрабатывать как быстрые рекуррентные данные, так и детальные конволюционные данные. Благодаря этому, модель SSD-Mamba2 может обеспечить высокую производительность, как при работе с локальными данными, так и при обработке внешних входных данных. ## Результаты Мы провели эксперименты с данными, полученными в различных модификациях задач моторного управления. Использовались различные типы входных данных, в том числе изображения, глубинные карты и другие сенсорные данные. Результаты показали, что наша модель **SSD-Mamba2** показывает значительно улучшенную эффективность по сравнению с другими моделями, которые не использовали новые структуры сетки. Модель обеспечивает более высокую производительность в задачах моторного управления, в том числе в задачах, требующих сложного взаимодействия с окружающим пространством. Эксперименты показали, что нашу модель можно использовать в различных сценариях, включая сценарии с управлением роботов, которые должны решать задачи, включая коллизии, удержание баланса и другие. ## Значимость Наша модель может быть применена в различных

Abstract

End-to-end reinforcement learning for motion control promises unified perception-action policies that scale across embodiments and tasks, yet most deployed controllers are either blind (proprioception-only) or rely on fusion backbones with unfavorable compute-memory trade-offs. Recurrent controllers struggle with long-horizon credit assignment, and Transformer-based fusion incurs quadratic cost in token length, limiting temporal and spatial context. We present a vision-driven cross-modal RL framework built on SSD-Mamba2, a selective state-space backbone that applies state-space duality (SSD) to enable both recurrent and convolutional scanning with hardware-aware streaming and near-linear scaling. Proprioceptive states and exteroceptive observations (e.g., depth tokens) are encoded into compact tokens and fused by stacked SSD-Mamba2 layers. The selective state-space updates retain long-range dependencies with markedly lower latency and memory use than quadratic self-attention, enabling longer look-ahead, higher token resolution, and stable training under limited compute. Policies are trained end-to-end under curricula that randomize terrain and appearance and progressively increase scene complexity. A compact, state-centric reward balances task progress, energy efficiency, and safety. Across diverse motion-control scenarios, our approach consistently surpasses strong state-of-the-art baselines in return, safety (collisions and falls), and sample efficiency, while converging faster at the same compute budget. These results suggest that SSD-Mamba2 provides a practical fusion backbone for scalable, foresightful, and efficient end-to-end motion control.

Ссылки и действия