RoboSSM: Scalable In-context Imitation Learning via State-Space Models

2509.19658v1 cs.RO, cs.AI 2025-09-26
Авторы:

Youngju Yoo, Jiaheng Hu, Yifeng Zhu, Bo Liu, Qiang Liu, Roberto Martín-Martín, Peter Stone

Резюме на русском

## Контекст В последние годы растет интерес к возможностям роботов в условиях неопределенности и нестандартных задач. Одним из актуальных подходов является **in-context imitation learning (ICIL)**, позволяющий роботам обучаться непосредственно от демонстраций, без необходимости долгих обучающих сеансов. Несмотря на преимущества, работы в этой области сталкиваются со сложностями, связанными с масштабируемостью и эффективностью. Традиционные методы, основанные на трансформерах, вынуждены тормозить при работе с большими объемами данных и длинными контекстами. Это создает требования к более производительным и гибким архитектурам. ## Метод **RoboSSM** — метод взаимодействия с роботом, построенный на **state-space models (SSM)**. В отличие от трансформеров, SSM обеспечивают **линейное время вычислений**, что делает их привлекательными для решения проблем с большими объемами данных. Метод использует Longhorn -- современный SSM — для моделирования длинных контекстов и функций, необходимых для взаимодействия с пользователем. Эта архитектура позволяет RoboSSM не только выполнять задачи, но и **интерпретировать их в новых условиях**, даже при отсутствии определенных данных во время обучения. ## Результаты В экспериментах на **LIBERO benchmark**, RoboSSM показал себя с высокой эффективностью. Он превосходит трансформерные аналоги в производительности и может **свободно масштабироваться** при работе с разным количеством демонстраций. Метод достигает высоких результатов в задачах с неизвестными условиями и показывает высокую устойчивость при работе в долгосрочных сценариях. Эти результаты подтверждают то, что **SSM могут стать эффективным инструментом** для решения задач ICIL в произвольных условиях. ## Значимость Результаты RoboSSM открывают широкие возможности для применения в **действительных условиях**. Благодаря своей масштабируемости и производительности, метод может применяться в **машинном обучении с параметрами**, **робототехнике**, **автоматизации** и даже в **медицине**, где необходимо быстрое реагирование на нестандартные задачи. Это не только улучшает эффективность роботов, но и снижает время, затрачиваемое на обучение. ## Выводы Разработка **RoboSSM** подтверждает мощь **state-space models (SSM)** в области ICIL. Они предлагают более эффективный и масштабируемый подход по сравнению с трансформерами. Будущие исследования смогут расширить перспективы RoboSSM, включая улучшение устойчивости в условиях нестабильности данных и расширение его применения в интересующих областях. Надеемся, что наша работа станет ярким примером в открытии новых возможностей в области робототехники.

Abstract

In-context imitation learning (ICIL) enables robots to learn tasks from prompts consisting of just a handful of demonstrations. By eliminating the need for parameter updates at deployment time, this paradigm supports few-shot adaptation to novel tasks. However, recent ICIL methods rely on Transformers, which have computational limitations and tend to underperform when handling longer prompts than those seen during training. In this work, we introduce RoboSSM, a scalable recipe for in-context imitation learning based on state-space models (SSM). Specifically, RoboSSM replaces Transformers with Longhorn -- a state-of-the-art SSM that provides linear-time inference and strong extrapolation capabilities, making it well-suited for long-context prompts. We evaluate our approach on the LIBERO benchmark and compare it against strong Transformer-based ICIL baselines. Experiments show that RoboSSM extrapolates effectively to varying numbers of in-context demonstrations, yields high performance on unseen tasks, and remains robust in long-horizon scenarios. These results highlight the potential of SSMs as an efficient and scalable backbone for ICIL. Our code is available at https://github.com/youngjuY/RoboSSM.

Ссылки и действия