RoboSSM: Scalable In-context Imitation Learning via State-Space Models
2509.19658v1
cs.RO, cs.AI
2025-09-26
Авторы:
Youngju Yoo, Jiaheng Hu, Yifeng Zhu, Bo Liu, Qiang Liu, Roberto Martín-Martín, Peter Stone
Резюме на русском
## Контекст
В последние годы растет интерес к возможностям роботов в условиях неопределенности и нестандартных задач. Одним из актуальных подходов является **in-context imitation learning (ICIL)**, позволяющий роботам обучаться непосредственно от демонстраций, без необходимости долгих обучающих сеансов. Несмотря на преимущества, работы в этой области сталкиваются со сложностями, связанными с масштабируемостью и эффективностью. Традиционные методы, основанные на трансформерах, вынуждены тормозить при работе с большими объемами данных и длинными контекстами. Это создает требования к более производительным и гибким архитектурам.
## Метод
**RoboSSM** — метод взаимодействия с роботом, построенный на **state-space models (SSM)**. В отличие от трансформеров, SSM обеспечивают **линейное время вычислений**, что делает их привлекательными для решения проблем с большими объемами данных. Метод использует Longhorn -- современный SSM — для моделирования длинных контекстов и функций, необходимых для взаимодействия с пользователем. Эта архитектура позволяет RoboSSM не только выполнять задачи, но и **интерпретировать их в новых условиях**, даже при отсутствии определенных данных во время обучения.
## Результаты
В экспериментах на **LIBERO benchmark**, RoboSSM показал себя с высокой эффективностью. Он превосходит трансформерные аналоги в производительности и может **свободно масштабироваться** при работе с разным количеством демонстраций. Метод достигает высоких результатов в задачах с неизвестными условиями и показывает высокую устойчивость при работе в долгосрочных сценариях. Эти результаты подтверждают то, что **SSM могут стать эффективным инструментом** для решения задач ICIL в произвольных условиях.
## Значимость
Результаты RoboSSM открывают широкие возможности для применения в **действительных условиях**. Благодаря своей масштабируемости и производительности, метод может применяться в **машинном обучении с параметрами**, **робототехнике**, **автоматизации** и даже в **медицине**, где необходимо быстрое реагирование на нестандартные задачи. Это не только улучшает эффективность роботов, но и снижает время, затрачиваемое на обучение.
## Выводы
Разработка **RoboSSM** подтверждает мощь **state-space models (SSM)** в области ICIL. Они предлагают более эффективный и масштабируемый подход по сравнению с трансформерами. Будущие исследования смогут расширить перспективы RoboSSM, включая улучшение устойчивости в условиях нестабильности данных и расширение его применения в интересующих областях. Надеемся, что наша работа станет ярким примером в открытии новых возможностей в области робототехники.
Abstract
In-context imitation learning (ICIL) enables robots to learn tasks from
prompts consisting of just a handful of demonstrations. By eliminating the need
for parameter updates at deployment time, this paradigm supports few-shot
adaptation to novel tasks. However, recent ICIL methods rely on Transformers,
which have computational limitations and tend to underperform when handling
longer prompts than those seen during training. In this work, we introduce
RoboSSM, a scalable recipe for in-context imitation learning based on
state-space models (SSM). Specifically, RoboSSM replaces Transformers with
Longhorn -- a state-of-the-art SSM that provides linear-time inference and
strong extrapolation capabilities, making it well-suited for long-context
prompts. We evaluate our approach on the LIBERO benchmark and compare it
against strong Transformer-based ICIL baselines. Experiments show that RoboSSM
extrapolates effectively to varying numbers of in-context demonstrations,
yields high performance on unseen tasks, and remains robust in long-horizon
scenarios. These results highlight the potential of SSMs as an efficient and
scalable backbone for ICIL. Our code is available at
https://github.com/youngjuY/RoboSSM.
Ссылки и действия
Дополнительные ресурсы: