AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
2509.25032v1
cs.RO, cs.AI, cs.CV
2025-10-01
Авторы:
Ryosuke Takanami, Petr Khrapchenkov, Shu Morikuni, Jumpei Arima, Yuta Takaba, Shunsuke Maeda, Takuya Okubo, Genki Sano, Satoshi Sekioka, Aoi Kadoya, Motonari Kambara, Naoya Nishiura, Haruto Suzuki, Takanori Yoshimoto, Koya Sakamoto, Shinnosuke Ono, Hu Yang, Daichi Yashima, Aoi Horo, Tomohiro Motoda, Kensuke Chiyoma, Hiroshi Ito, Koki Fukuda, Akihito Goto, Kazumi Morinaga, Yuya Ikeda, Riko Kawada, Masaki Yoshikawa, Norio Kosuge, Yuki Noguchi, Kei Ota, Tatsuya Matsushima, Yusuke Iwasawa, Yutaka Matsuo, Tetsuya Ogata
Резюме на русском
## Контекст
Мобильная манипуляция роботов представляет собой ключевую задачу в рамках интеллектуальных систем-роботов, целью которых является полноценное взаимодействие с объектами в неуправляемой среде. Несмотря на успехи в развитии технологий контроля и распознавания объектов, устойчивая манипуляция с использованием силы остается вызовом. Основной проблемой является нехватка данных, которые могли бы помочь в развитии алгоритмов, подходящих для решения реальных задач. Эксперименты показывают, что достижение высокого уровня регистрации изображений, синхронизации данных наборов движений и силовых сигналов является затруднительным, что негативно сказывается на точности и надёжности моделей. Необходима большомасштабная датасет для мобильной манипуляции, который бы позволил развитию роботов с полноценной реагированием на лангуаж и рукопожатия в реальном мире.
## Метод
Для получения данных был использован робот **Human Support Robot (HSR)**, который производил различные манипуляции в реальной среде. Данные были собраны с помощью различных сенсоров, включая RGB-камеры, силовые сигналы и сигналы вращения угловых моментов. Для управления роботом использовались сигналы видео, созданные на основе технологии глубокого обучения. Для синхронизации изображений и данных силы использовалась особая методика, позволяющая получать высококачественные данные в реальном времени. Было реализовано два уровня аннотаций: подзадачи и примитивные действия, которые помогают в анализе и оптимизации алгоритмов. Датасет был стандартизирован в формате **LeRobot v2.1**, что обеспечивает единообразие данных и упрощает их использование в разных задачах.
## Результаты
Для создания датасета были собраны 25,469 эпизодов, которые составляют примерно 94 часов работы робота в различных условиях. Данные включают RGB-кадры, сигналы наборов движений и сигналы силы, а также внутренние сигналы робота. Аннотации датасета позволяют выделить подзадачи и примитивные действия, что позволяет оценивать точность и надёжность моделей. Результаты экспериментов показали, что данный датасет позволяет существенно повысить точность и надёжность алгоритмов, превращая их в лучшую версию. Результаты получены на основе синхронизации данных и их анализа в реальном времени.
## Значимость
Датасет **AIRoA MoMa** имеет широке применение в развитии технологий мобильной манипуляции. Он может быть использован для обучения роботов к работе в реальных условиях, а также для проверки возможностей и ограничений существующих моделей. Особенно важно синхронизированное визуально-силовое
Abstract
As robots transition from controlled settings to unstructured human
environments, building generalist agents that can reliably follow natural
language instructions remains a central challenge. Progress in robust mobile
manipulation requires large-scale multimodal datasets that capture contact-rich
and long-horizon tasks, yet existing resources lack synchronized force-torque
sensing, hierarchical annotations, and explicit failure cases. We address this
gap with the AIRoA MoMa Dataset, a large-scale real-world multimodal dataset
for mobile manipulation. It includes synchronized RGB images, joint states,
six-axis wrist force-torque signals, and internal robot states, together with a
novel two-layer annotation schema of sub-goals and primitive actions for
hierarchical learning and error analysis. The initial dataset comprises 25,469
episodes (approx. 94 hours) collected with the Human Support Robot (HSR) and is
fully standardized in the LeRobot v2.1 format. By uniquely integrating mobile
manipulation, contact-rich interaction, and long-horizon structure, AIRoA MoMa
provides a critical benchmark for advancing the next generation of
Vision-Language-Action models. The first version of our dataset is now
available at https://huggingface.co/datasets/airoa-org/airoa-moma .
Ссылки и действия
Дополнительные ресурсы: