ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
2508.08240v1
cs.RO, cs.CV
2025-08-13
Авторы:
Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
Резюме на русском
## Контекст
Область исследования, связанная с возможностью обучения роботами выполнять долгосрочные задачи в условиях разнообразных сред, подчеркивает важность интеграции семантического рассуждения, общеупотребимого робототехнического управления и адаптивных методов перемещения. Однако существуют три ключевых проблемы, стоящие на пути построения эффективных систем робот-ассистентов. Во-первых, хотя языковые модели совершенствовались в семантических задачах, они ограничены круглосточными сценариями, не подходят для сложных технологических сред. Во-вторых, текущие стратегии манипуляции не устоят перед разнообразием конфигураций объектов в открытых средах. В-третьих, робот-ассистенты должны обеспечить гибкость движения в комплексе с точной управляемостью конечного приспособления, что требует дополнительных исследований.
Целью нашей работы является разработка универсальной системы "ODYSSEY" для легких роботов-квадрупедов с манипуляторами, способной решать открытые задачи в пространстве с помощью лексико-языковых моделей.
## Метод
ODYSSEY — это комбинация методологии, где интегрируется высокоуровневый планирователь семантического плана с низкоуровневым контроллером тела робота. Для решения задачи оценки ситуации в живой среде мы применяем визуально-языковую модель, которая декомпозирует длинные инструкции на подзадачи, обеспечивая точность исполнения. Для того, чтобы решить задачу жесткого прижимания в технологических средах, мы использовали новый контроллер, позволяющий роботу выполнять непрерывные действия в разнообразных территориях. Мы также разработали эталонный тестовый набор для тестирования роботов в различных средах.
## Результаты
Мы провели эксперименты в симуляционной среде и на реальных роботах, тестируя возможности ODYSSEY в решении задач, включающих различные территории и предметы. Наши результаты показали, что робот может выполнять длинные задачи, выполняя многократные действия в различных условиях. Мы также проверили гибкость и точность конечного приспособления в условиях сложной технической среды.
## Значимость
Система ODYSSEY может применяться в промышленном производстве, домашних условиях и в сложных технологических процессах. У нее большая гибкость и применяемость в различных сценариях. Она повышает уровень управляемости и точности, что делает ее уникальной в сравнении с традиционными ботовыми технологиями.
## Выводы
Представленная система ODYSSEY демонстрирует значительные достижения в области организации сложных робототехнических задач. Она применяется в
Abstract
Language-guided long-horizon mobile manipulation has long been a grand
challenge in embodied semantic reasoning, generalizable manipulation, and
adaptive locomotion. Three fundamental limitations hinder progress: First,
although large language models have improved spatial reasoning and task
planning through semantic priors, existing implementations remain confined to
tabletop scenarios, failing to address the constrained perception and limited
actuation ranges of mobile platforms. Second, current manipulation strategies
exhibit insufficient generalization when confronted with the diverse object
configurations encountered in open-world environments. Third, while crucial for
practical deployment, the dual requirement of maintaining high platform
maneuverability alongside precise end-effector control in unstructured settings
remains understudied.
In this work, we present ODYSSEY, a unified mobile manipulation framework for
agile quadruped robots equipped with manipulators, which seamlessly integrates
high-level task planning with low-level whole-body control. To address the
challenge of egocentric perception in language-conditioned tasks, we introduce
a hierarchical planner powered by a vision-language model, enabling
long-horizon instruction decomposition and precise action execution. At the
control level, our novel whole-body policy achieves robust coordination across
challenging terrains. We further present the first benchmark for long-horizon
mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through
successful sim-to-real transfer, we demonstrate the system's generalization and
robustness in real-world deployments, underscoring the practicality of legged
manipulators in unstructured environments. Our work advances the feasibility of
generalized robotic assistants capable of complex, dynamic tasks. Our project
page: https://kaijwang.github.io/odyssey.github.io/
Ссылки и действия
Дополнительные ресурсы: