Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation
2508.15663v1
cs.RO, cs.AI
2025-08-23
Авторы:
Nikita Kachaev, Andrei Spiridonov, Andrey Gorodetsky, Kirill Muravyev, Nikita Oskolkov, Aditya Narendra, Vlad Shakhuro, Dmitry Makarov, Aleksandr I. Panov, Polina Fedotova, Alexey K. Kovalev
Резюме на русском
## Контекст
Область embodied AI (роботизированные системы) требует эффективных инструментов для оценки пограничных областей между задачным планированием и физической исполнительской системой. На сегодняшний день, существуют бенчмарки, сосредоточенные на высокоуровневых задачах (например, понимании естественного языка) и на выполнении простых, одношаговых команд. Однако нет полноценных средств для оценки систем, в которых оба этих аспекта играют ключевую роль. Это препятствует полноценной оценке роботов, которые должны обладать как высокоуровневыми навыками, так и точными физическими способностями.
## Метод
Мы предлагаем Kitchen-R — новый бенчмарк, который сочетает в себе оценку задачного планирования и низкоуровневых политик управления в симулированной кухонной среде. Базируясь на IsaacSim, он предлагает более 500 комплексных языковых инструкций для управления мобильным манипулятором. Мы также предоставляем базовые методы, включая визионно-языковую модель для планирования и распределенную политику для низкоуровневого управления. Бенчмарк поддерживает три режима оценки: отдельные модули планирования и управления, а также их интегрированное тестирование.
## Результаты
В ходе экспериментов мы отобрали набор данных, опробовали использованные методы и проанализировали результаты. Мы показали, что Kitchen-R позволяет проводить полноценную оценку интегрированных систем, демонстрируя сильные и слабые стороны в различных режимах работы. Бенчмарк демонстрирует, что существуют проблемы в том, как задачи планирования и выполнения взаимодействуют динамически, что может привести к серьезным ошибкам в реальных условиях.
## Значимость
Kitchen-R позволяет значительно расширить модель работы роботов, включая в систему как высокоуровневые задачи, так и физические ограничения. Он может быть применен в сферах, где требуется роботизированная помощь в домашних или промышленных условиях. Его ключевое преимущество — возможность оценивать не только отдельные компоненты, но и взаимодействие между ними, что дает более точный и реалистичный результат.
## Выводы
Kitchen-R представляет собой ключевой инструмент для продолжения исследований в области embodied AI. Мы выдвигаем перспективы расширения бенчмарка для разных ситуаций и сред, чтобы ещё больше улучшить точность и реалистичность оценок. Будущие исследования будут сфокусированы на динамических сценариях и условиях, чтобы повысить выносливость роботов в реальном мире.
Abstract
Benchmarks are crucial for evaluating progress in robotics and embodied AI.
However, a significant gap exists between benchmarks designed for high-level
language instruction following, which often assume perfect low-level execution,
and those for low-level robot control, which rely on simple, one-step commands.
This disconnect prevents a comprehensive evaluation of integrated systems where
both task planning and physical execution are critical. To address this, we
propose Kitchen-R, a novel benchmark that unifies the evaluation of task
planning and low-level control within a simulated kitchen environment. Built as
a digital twin using the Isaac Sim simulator and featuring more than 500
complex language instructions, Kitchen-R supports a mobile manipulator robot.
We provide baseline methods for our benchmark, including a task-planning
strategy based on a vision-language model and a low-level control policy based
on diffusion policy. We also provide a trajectory collection system. Our
benchmark offers a flexible framework for three evaluation modes: independent
assessment of the planning module, independent assessment of the control
policy, and, crucially, an integrated evaluation of the whole system. Kitchen-R
bridges a key gap in embodied AI research, enabling more holistic and realistic
benchmarking of language-guided robotic agents.
Ссылки и действия
Дополнительные ресурсы: