OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation
2509.05513v1
cs.CV, cs.AI, cs.RO
2025-09-10
Авторы:
Ahad Jawaid, Yu Xiang
Резюме на русском
## Контекст
Egocentric human videos, представляющие скелетовские структуры и действия, являются эффективным источником демонстрационных данных для технологий иммитационного обучения. Однако, существующие корпуса часто не содержат точных, временно определенных описаний действий или информации об действиях рук, что создает трудности для исследования рукоподобных манипуляций. Для адресации этой проблемы, мы предлагаем OpenEgo — крупный мультимодальный корпус, содержащий манипуляции с руками, высококачественными рукопозиционированиями и целевыми действиями.
## Метод
OpenEgo объединяет 1107 часов видео данных, включая 6 различных многомодальных датасетов по декстеросой манипуляции в 600+ средах. Мы вводим стандартизированные рукопозиционирования, которые гарантируют точные темпоральные описания действий. Кроме того, мы назначаем каждому действию описательные темпорально определенные разметки (action primitives), которые могут быть запусканы с помощью данных руки. Эти разметки позволяют позиционировать руки и выполнять целевые действия.
## Результаты
Мы проводим эксперименты с OpenEgo, используя методы языковоностной условной иммитации обучения (CLIPort), чтобы прогнозировать рукопозиционирования с руками и выполнять действия. Мы используем данные из OpenEgo для обучения моделей, и опробуем эффективность наших подходов на репродуктивных задачах манипуляции.
## Значимость
OpenEgo может использоваться в сценариях когнитивных роботов, визуально-языковых моделях и других визуально-активных исследованиях. Он позволяет значительно упростить процесс иммитационного обучения, повысить точность прогнозирования действий рук и обеспечить репродуцируемый инструментарий для визуально-языковых моделей. Это может иметь большое влияние на прогресс робототехники и управления ходом в реальных средах.
## Выводы
Открытый корпус OpenEgo, представленный в этой работе, является крупным ресурсом для исследований в области визуально-языковых моделей и иммитационного обучения. Мы показываем, что наш подход действителен для решения проблем с иммитацией декстеросой манипуляции. Мы планируем дальнейшие исследования для расширения OpenEgo и улучшения его возможностей в области рукоподобных манипуляций.
Abstract
Egocentric human videos provide scalable demonstrations for imitation
learning, but existing corpora often lack either fine-grained, temporally
localized action descriptions or dexterous hand annotations. We introduce
OpenEgo, a multimodal egocentric manipulation dataset with standardized
hand-pose annotations and intention-aligned action primitives. OpenEgo totals
1107 hours across six public datasets, covering 290 manipulation tasks in 600+
environments. We unify hand-pose layouts and provide descriptive, timestamped
action primitives. To validate its utility, we train language-conditioned
imitation-learning policies to predict dexterous hand trajectories. OpenEgo is
designed to lower the barrier to learning dexterous manipulation from
egocentric video and to support reproducible research in vision-language-action
learning. All resources and instructions will be released at
www.openegocentric.com.
Ссылки и действия
Дополнительные ресурсы: