Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation

2508.15663v1 cs.RO, cs.AI 2025-08-23
Авторы:

Nikita Kachaev, Andrei Spiridonov, Andrey Gorodetsky, Kirill Muravyev, Nikita Oskolkov, Aditya Narendra, Vlad Shakhuro, Dmitry Makarov, Aleksandr I. Panov, Polina Fedotova, Alexey K. Kovalev

Резюме на русском

## Контекст Область embodied AI (роботизированные системы) требует эффективных инструментов для оценки пограничных областей между задачным планированием и физической исполнительской системой. На сегодняшний день, существуют бенчмарки, сосредоточенные на высокоуровневых задачах (например, понимании естественного языка) и на выполнении простых, одношаговых команд. Однако нет полноценных средств для оценки систем, в которых оба этих аспекта играют ключевую роль. Это препятствует полноценной оценке роботов, которые должны обладать как высокоуровневыми навыками, так и точными физическими способностями. ## Метод Мы предлагаем Kitchen-R — новый бенчмарк, который сочетает в себе оценку задачного планирования и низкоуровневых политик управления в симулированной кухонной среде. Базируясь на IsaacSim, он предлагает более 500 комплексных языковых инструкций для управления мобильным манипулятором. Мы также предоставляем базовые методы, включая визионно-языковую модель для планирования и распределенную политику для низкоуровневого управления. Бенчмарк поддерживает три режима оценки: отдельные модули планирования и управления, а также их интегрированное тестирование. ## Результаты В ходе экспериментов мы отобрали набор данных, опробовали использованные методы и проанализировали результаты. Мы показали, что Kitchen-R позволяет проводить полноценную оценку интегрированных систем, демонстрируя сильные и слабые стороны в различных режимах работы. Бенчмарк демонстрирует, что существуют проблемы в том, как задачи планирования и выполнения взаимодействуют динамически, что может привести к серьезным ошибкам в реальных условиях. ## Значимость Kitchen-R позволяет значительно расширить модель работы роботов, включая в систему как высокоуровневые задачи, так и физические ограничения. Он может быть применен в сферах, где требуется роботизированная помощь в домашних или промышленных условиях. Его ключевое преимущество — возможность оценивать не только отдельные компоненты, но и взаимодействие между ними, что дает более точный и реалистичный результат. ## Выводы Kitchen-R представляет собой ключевой инструмент для продолжения исследований в области embodied AI. Мы выдвигаем перспективы расширения бенчмарка для разных ситуаций и сред, чтобы ещё больше улучшить точность и реалистичность оценок. Будущие исследования будут сфокусированы на динамических сценариях и условиях, чтобы повысить выносливость роботов в реальном мире.

Abstract

Benchmarks are crucial for evaluating progress in robotics and embodied AI. However, a significant gap exists between benchmarks designed for high-level language instruction following, which often assume perfect low-level execution, and those for low-level robot control, which rely on simple, one-step commands. This disconnect prevents a comprehensive evaluation of integrated systems where both task planning and physical execution are critical. To address this, we propose Kitchen-R, a novel benchmark that unifies the evaluation of task planning and low-level control within a simulated kitchen environment. Built as a digital twin using the Isaac Sim simulator and featuring more than 500 complex language instructions, Kitchen-R supports a mobile manipulator robot. We provide baseline methods for our benchmark, including a task-planning strategy based on a vision-language model and a low-level control policy based on diffusion policy. We also provide a trajectory collection system. Our benchmark offers a flexible framework for three evaluation modes: independent assessment of the planning module, independent assessment of the control policy, and, crucially, an integrated evaluation of the whole system. Kitchen-R bridges a key gap in embodied AI research, enabling more holistic and realistic benchmarking of language-guided robotic agents.

Ссылки и действия