Robix: A Unified Model for Robot Interaction, Reasoning and Planning
2509.01106v1
cs.AI, cs.CV, cs.RO
2025-09-05
Авторы:
Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
Резюме на русском
## Контекст
В последние годы возрос внимание к развитию интеллектуальных роботов, которые могут справляться с многозадачностью, общаться с пользователями и выполнять требовательные задачи в реальном мире. Однако существуют несколько значимых проблем. На сегодняшний день, большинство роботов взаимодействуют с пользователями через специализированные модели, некоторые из которых нацелены на задачи природного языка, но не всегда в состоянии распознавать контекст. Кроме того, многие роботы не могут применительно к сложным задачам выполнить планирование с течением времени, что приводит к сбоям в выполнении задач.
Эта ситуация ставит в ответственность разработчиков роботов на поиск решений, которые позволят роботам более эффективно работать в составе интеллектуальных систем. Таким образом, появляется мотивация для разработки универсальной модели, которая может объединить природное взаимодействие, принятие решений и задание целей в одной архитектуре.
## Метод
Робот-система Robix представляет собой универсальную модель, включающую в себя мощные средства для визуального понимания, планирования задач и общения. Она динамически формирует набор минимальных команд для низкоуровневого управления и при этом может также запускать разговорные ответы для взаимодействия с человеком.
Robix работает в качестве высокоуровневого компонента в иерархической системе робота. Она обрабатывает задачи, начиная с простых до сложных, включая взаимодействие с человеком, планирование шагов выполнения, а также отслеживание контекста в течение общения.
Метод основывается на цепочке мыслей (chain-of-thought) и имеет трехэтапную стратегию обучения:
1. Дополнительное обучение для улучшения навыков визуального и спациального понимания, гамма-разметки и задач специфичных для задач;
2. Обучение на основе наблюдений для синтеза логики принятия решений и действий в интерактивных сценариях;
3. Регуляризация через учебный процесс реинфорсмента для повышения согласованности в решении задач и долгосрочного планирования.
## Результаты
Проводились различные эксперименты, включая оценку уровня успешности в интерактивном выполнении задач, который наблюдался в сценариях с открытыми, многоэтапными, ограниченными и прерванными инструкциями. Демонстрационные результаты показали, что Robix выполняет задачи гораздо эффективнее, чем существующие системы на основе GPT-4 и Gemini 2.5 Pro. Она успешно справляется с различными типами задач, включая:
- Обслуживание столов в ресторане;
- Покупка продуктов в магазине;
- Отбор продуктов, соответствующих определенным тре
Abstract
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.
Ссылки и действия
Дополнительные ресурсы: