HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement
2508.16943v1
cs.RO, cs.AI
2025-08-27
Авторы:
Haozhuo Zhang, Jingkai Sun, Michele Caprio, Jian Tang, Shanghang Zhang, Qiang Zhang, Wei Pan
Резюме на русском
#### Контекст
Роботизация домашних и производственных процессов часто требует роботов, способных выполнять несколько последовательных задач, основываясь на естественных языковых инструкциях и сенсорных данных. Однако существующие решения либо ограничены одной роботской серией, либо не умеют работать с последовательными задачами в сложных средах. Выделяется необходимость в гибком, универсальном роботе, который мог бы работать в различных сценариях, взаимодействуя с множеством объектов и понимая натуральный язык.
#### Метод
Мы предлагаем **HumanoidVerse**, новую систему, которая позволяет физическим симуляционным роботам выполнять последовательные задачи с несколькими объектами, исходя из натуральных языковых инструкций и изображений с ограниченного игрока (egocentric RGB). Основная часть системы — это **Multi-Agent Curriculum Learning**, которая разделяет задачу на небольшие подзадачи и использует дистилляцию знаний между учителями. Мы создали большую выборку данных из 350 задач, со сценариями, охватывающими различные типы комнат. Таким образом, **HumanoidVerse** может последовательно манипулировать кругу объектов, в период между подзадачами не выполняя перезагрузки среды.
#### Результаты
Мы проводили эксперименты в симуляторе **Isaac Gym**, где сравнивали **HumanoidVerse** с другими методами. Наш метод достиг высокой точности в выполнении задач (95,8%) и более высокой специфичности (96,7%) по сравнению с современными решениями. Он показал способность хорошо работать в неизвестных условиях и с новыми инструкциями. Это продемонстрировано на нашем сайте с проектом: **https://haozhuo-zhang.github.io/HumanoidVerse-project-page/**, где можно посмотреть видео-результаты.
#### Значимость
Наша работа открывает новые возможности для развития робота, способного выполнять последовательные задачи в различных сценариях домашних, промышленных или внешних условий. Она может использоваться в графических проектах, симуляциях и реальных приложениях, где необходимо гибкое управление роботом с помощью языка. **HumanoidVerse** может стать ключевым элементом в создании универсальных, системных роботизированных систем.
#### Выводы
Мы представили **HumanoidVerse**, новую систему для управления роботом множеством последовательных задач с помощью естественного языка и изображений. Наши эксперименты показали, что она превосходит аналогичные методы в специфичности и общей роботоподвижности, а также показывает высокую мобильность в неизвестных средах и задачах. Наша работа создает новые возможности в создании универсальных и системных робот-роботов, способных выполнять робот-робот в реальных мировых условиях. Мы планиру
Abstract
We introduce HumanoidVerse, a novel framework for vision-language guided
humanoid control that enables a single physically simulated robot to perform
long-horizon, multi-object rearrangement tasks across diverse scenes. Unlike
prior methods that operate in fixed settings with single-object interactions,
our approach supports consecutive manipulation of multiple objects, guided only
by natural language instructions and egocentric camera RGB observations.
HumanoidVerse is trained via a multi-stage curriculum using a dual-teacher
distillation pipeline, enabling fluid transitions between sub-tasks without
requiring environment resets. To support this, we construct a large-scale
dataset comprising 350 multi-object tasks spanning four room layouts. Extensive
experiments in the Isaac Gym simulator demonstrate that our method
significantly outperforms prior state-of-the-art in both task success rate and
spatial precision, and generalizes well to unseen environments and
instructions. Our work represents a key step toward robust, general-purpose
humanoid agents capable of executing complex, sequential tasks under real-world
sensory constraints. The video visualization results can be found on the
project page: https://haozhuo-zhang.github.io/HumanoidVerse-project-page/.
Ссылки и действия
Дополнительные ресурсы: