AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation

2509.25032v1 cs.RO, cs.AI, cs.CV 2025-10-01

Авторы:

Ryosuke Takanami, Petr Khrapchenkov, Shu Morikuni, Jumpei Arima, Yuta Takaba, Shunsuke Maeda, Takuya Okubo, Genki Sano, Satoshi Sekioka, Aoi Kadoya, Motonari Kambara, Naoya Nishiura, Haruto Suzuki, Takanori Yoshimoto, Koya Sakamoto, Shinnosuke Ono, Hu Yang, Daichi Yashima, Aoi Horo, Tomohiro Motoda, Kensuke Chiyoma, Hiroshi Ito, Koki Fukuda, Akihito Goto, Kazumi Morinaga, Yuya Ikeda, Riko Kawada, Masaki Yoshikawa, Norio Kosuge, Yuki Noguchi, Kei Ota, Tatsuya Matsushima, Yusuke Iwasawa, Yutaka Matsuo, Tetsuya Ogata

Резюме на русском

## Контекст Мобильная манипуляция роботов представляет собой ключевую задачу в рамках интеллектуальных систем-роботов, целью которых является полноценное взаимодействие с объектами в неуправляемой среде. Несмотря на успехи в развитии технологий контроля и распознавания объектов, устойчивая манипуляция с использованием силы остается вызовом. Основной проблемой является нехватка данных, которые могли бы помочь в развитии алгоритмов, подходящих для решения реальных задач. Эксперименты показывают, что достижение высокого уровня регистрации изображений, синхронизации данных наборов движений и силовых сигналов является затруднительным, что негативно сказывается на точности и надёжности моделей. Необходима большомасштабная датасет для мобильной манипуляции, который бы позволил развитию роботов с полноценной реагированием на лангуаж и рукопожатия в реальном мире. ## Метод Для получения данных был использован робот **Human Support Robot (HSR)**, который производил различные манипуляции в реальной среде. Данные были собраны с помощью различных сенсоров, включая RGB-камеры, силовые сигналы и сигналы вращения угловых моментов. Для управления роботом использовались сигналы видео, созданные на основе технологии глубокого обучения. Для синхронизации изображений и данных силы использовалась особая методика, позволяющая получать высококачественные данные в реальном времени. Было реализовано два уровня аннотаций: подзадачи и примитивные действия, которые помогают в анализе и оптимизации алгоритмов. Датасет был стандартизирован в формате **LeRobot v2.1**, что обеспечивает единообразие данных и упрощает их использование в разных задачах. ## Результаты Для создания датасета были собраны 25,469 эпизодов, которые составляют примерно 94 часов работы робота в различных условиях. Данные включают RGB-кадры, сигналы наборов движений и сигналы силы, а также внутренние сигналы робота. Аннотации датасета позволяют выделить подзадачи и примитивные действия, что позволяет оценивать точность и надёжность моделей. Результаты экспериментов показали, что данный датасет позволяет существенно повысить точность и надёжность алгоритмов, превращая их в лучшую версию. Результаты получены на основе синхронизации данных и их анализа в реальном времени. ## Значимость Датасет **AIRoA MoMa** имеет широке применение в развитии технологий мобильной манипуляции. Он может быть использован для обучения роботов к работе в реальных условиях, а также для проверки возможностей и ограничений существующих моделей. Особенно важно синхронизированное визуально-силовое

Abstract

As robots transition from controlled settings to unstructured human environments, building generalist agents that can reliably follow natural language instructions remains a central challenge. Progress in robust mobile manipulation requires large-scale multimodal datasets that capture contact-rich and long-horizon tasks, yet existing resources lack synchronized force-torque sensing, hierarchical annotations, and explicit failure cases. We address this gap with the AIRoA MoMa Dataset, a large-scale real-world multimodal dataset for mobile manipulation. It includes synchronized RGB images, joint states, six-axis wrist force-torque signals, and internal robot states, together with a novel two-layer annotation schema of sub-goals and primitive actions for hierarchical learning and error analysis. The initial dataset comprises 25,469 episodes (approx. 94 hours) collected with the Human Support Robot (HSR) and is fully standardized in the LeRobot v2.1 format. By uniquely integrating mobile manipulation, contact-rich interaction, and long-horizon structure, AIRoA MoMa provides a critical benchmark for advancing the next generation of Vision-Language-Action models. The first version of our dataset is now available at https://huggingface.co/datasets/airoa-org/airoa-moma .

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Distracted Robot: How Visual Clutter Undermine Robotic Manipulation

Obstruction reasoning for robotic grasping

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as A...

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied ...

Stable Multi-Drone GNSS Tracking System for Marine Robots

Навигация