Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?
2509.07593v1
cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY
2025-09-11
Авторы:
Gavin Tao, Yinuo Wang, Jinzhao Zhou
Резюме на русском
## Контекст
Многие современные системы моторного управления построены на базе методов реконструкции перцепции и активного управления, но не все эти системы могут обеспечить значительную производительность при сочетании разных типов входных данных. Особенностью таких систем является то, что они часто не могут эффективно обрабатывать данные локального восприятия (проприорецепции) и внешнего восприятия (ексетероцепции) одновременно, что ограничивает их возможности в широком спектре задач. Неверно управляемые системы моторного управления могут привести к нежелательным случайным ситуациям, таким как коллизии, неудачные попытки удержания баланса и другие неблагоприятные результаты. На практике это значит, что необходимо разработать более универсальные и эффективные системы моторного управления, которые могут обрабатывать одновременно большое количество входных данных с различных источников, включая как локальные, так и внешние данные.
## Метод
Мы предлагаем развитие фреймворка для решения задач моторного управления с использованием **SSD-Mamba2**, который является современным селективным рекуррентным сетным блоком. Эта модель применяет преобразование стойких состояний для обработки данных входов в виде тензоров, и эти тензоры затем используются в качестве входных данных для алгоритмов моторного управления. Архитектура фреймворка включает в себя модульное сеттное устройство, которое использует **state-space duality** (SSD) для обеспечения рекуррентных и конволюционных процессов в сетке. Таким образом, модель может обрабатывать как быстрые рекуррентные данные, так и детальные конволюционные данные. Благодаря этому, модель SSD-Mamba2 может обеспечить высокую производительность, как при работе с локальными данными, так и при обработке внешних входных данных.
## Результаты
Мы провели эксперименты с данными, полученными в различных модификациях задач моторного управления. Использовались различные типы входных данных, в том числе изображения, глубинные карты и другие сенсорные данные. Результаты показали, что наша модель **SSD-Mamba2** показывает значительно улучшенную эффективность по сравнению с другими моделями, которые не использовали новые структуры сетки. Модель обеспечивает более высокую производительность в задачах моторного управления, в том числе в задачах, требующих сложного взаимодействия с окружающим пространством. Эксперименты показали, что нашу модель можно использовать в различных сценариях, включая сценарии с управлением роботов, которые должны решать задачи, включая коллизии, удержание баланса и другие.
## Значимость
Наша модель может быть применена в различных
Abstract
End-to-end reinforcement learning for motion control promises unified
perception-action policies that scale across embodiments and tasks, yet most
deployed controllers are either blind (proprioception-only) or rely on fusion
backbones with unfavorable compute-memory trade-offs. Recurrent controllers
struggle with long-horizon credit assignment, and Transformer-based fusion
incurs quadratic cost in token length, limiting temporal and spatial context.
We present a vision-driven cross-modal RL framework built on SSD-Mamba2, a
selective state-space backbone that applies state-space duality (SSD) to enable
both recurrent and convolutional scanning with hardware-aware streaming and
near-linear scaling. Proprioceptive states and exteroceptive observations
(e.g., depth tokens) are encoded into compact tokens and fused by stacked
SSD-Mamba2 layers. The selective state-space updates retain long-range
dependencies with markedly lower latency and memory use than quadratic
self-attention, enabling longer look-ahead, higher token resolution, and stable
training under limited compute. Policies are trained end-to-end under curricula
that randomize terrain and appearance and progressively increase scene
complexity. A compact, state-centric reward balances task progress, energy
efficiency, and safety. Across diverse motion-control scenarios, our approach
consistently surpasses strong state-of-the-art baselines in return, safety
(collisions and falls), and sample efficiency, while converging faster at the
same compute budget. These results suggest that SSD-Mamba2 provides a practical
fusion backbone for scalable, foresightful, and efficient end-to-end motion
control.