OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation

2509.05513v1 cs.CV, cs.AI, cs.RO 2025-09-10
Авторы:

Ahad Jawaid, Yu Xiang

Резюме на русском

## Контекст Egocentric human videos, представляющие скелетовские структуры и действия, являются эффективным источником демонстрационных данных для технологий иммитационного обучения. Однако, существующие корпуса часто не содержат точных, временно определенных описаний действий или информации об действиях рук, что создает трудности для исследования рукоподобных манипуляций. Для адресации этой проблемы, мы предлагаем OpenEgo — крупный мультимодальный корпус, содержащий манипуляции с руками, высококачественными рукопозиционированиями и целевыми действиями. ## Метод OpenEgo объединяет 1107 часов видео данных, включая 6 различных многомодальных датасетов по декстеросой манипуляции в 600+ средах. Мы вводим стандартизированные рукопозиционирования, которые гарантируют точные темпоральные описания действий. Кроме того, мы назначаем каждому действию описательные темпорально определенные разметки (action primitives), которые могут быть запусканы с помощью данных руки. Эти разметки позволяют позиционировать руки и выполнять целевые действия. ## Результаты Мы проводим эксперименты с OpenEgo, используя методы языковоностной условной иммитации обучения (CLIPort), чтобы прогнозировать рукопозиционирования с руками и выполнять действия. Мы используем данные из OpenEgo для обучения моделей, и опробуем эффективность наших подходов на репродуктивных задачах манипуляции. ## Значимость OpenEgo может использоваться в сценариях когнитивных роботов, визуально-языковых моделях и других визуально-активных исследованиях. Он позволяет значительно упростить процесс иммитационного обучения, повысить точность прогнозирования действий рук и обеспечить репродуцируемый инструментарий для визуально-языковых моделей. Это может иметь большое влияние на прогресс робототехники и управления ходом в реальных средах. ## Выводы Открытый корпус OpenEgo, представленный в этой работе, является крупным ресурсом для исследований в области визуально-языковых моделей и иммитационного обучения. Мы показываем, что наш подход действителен для решения проблем с иммитацией декстеросой манипуляции. Мы планируем дальнейшие исследования для расширения OpenEgo и улучшения его возможностей в области рукоподобных манипуляций.

Abstract

Egocentric human videos provide scalable demonstrations for imitation learning, but existing corpora often lack either fine-grained, temporally localized action descriptions or dexterous hand annotations. We introduce OpenEgo, a multimodal egocentric manipulation dataset with standardized hand-pose annotations and intention-aligned action primitives. OpenEgo totals 1107 hours across six public datasets, covering 290 manipulation tasks in 600+ environments. We unify hand-pose layouts and provide descriptive, timestamped action primitives. To validate its utility, we train language-conditioned imitation-learning policies to predict dexterous hand trajectories. OpenEgo is designed to lower the barrier to learning dexterous manipulation from egocentric video and to support reproducible research in vision-language-action learning. All resources and instructions will be released at www.openegocentric.com.

Ссылки и действия