Robix: A Unified Model for Robot Interaction, Reasoning and Planning

2509.01106v1 cs.AI, cs.CV, cs.RO 2025-09-05
Авторы:

Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

Резюме на русском

## Контекст В последние годы возрос внимание к развитию интеллектуальных роботов, которые могут справляться с многозадачностью, общаться с пользователями и выполнять требовательные задачи в реальном мире. Однако существуют несколько значимых проблем. На сегодняшний день, большинство роботов взаимодействуют с пользователями через специализированные модели, некоторые из которых нацелены на задачи природного языка, но не всегда в состоянии распознавать контекст. Кроме того, многие роботы не могут применительно к сложным задачам выполнить планирование с течением времени, что приводит к сбоям в выполнении задач. Эта ситуация ставит в ответственность разработчиков роботов на поиск решений, которые позволят роботам более эффективно работать в составе интеллектуальных систем. Таким образом, появляется мотивация для разработки универсальной модели, которая может объединить природное взаимодействие, принятие решений и задание целей в одной архитектуре. ## Метод Робот-система Robix представляет собой универсальную модель, включающую в себя мощные средства для визуального понимания, планирования задач и общения. Она динамически формирует набор минимальных команд для низкоуровневого управления и при этом может также запускать разговорные ответы для взаимодействия с человеком. Robix работает в качестве высокоуровневого компонента в иерархической системе робота. Она обрабатывает задачи, начиная с простых до сложных, включая взаимодействие с человеком, планирование шагов выполнения, а также отслеживание контекста в течение общения. Метод основывается на цепочке мыслей (chain-of-thought) и имеет трехэтапную стратегию обучения: 1. Дополнительное обучение для улучшения навыков визуального и спациального понимания, гамма-разметки и задач специфичных для задач; 2. Обучение на основе наблюдений для синтеза логики принятия решений и действий в интерактивных сценариях; 3. Регуляризация через учебный процесс реинфорсмента для повышения согласованности в решении задач и долгосрочного планирования. ## Результаты Проводились различные эксперименты, включая оценку уровня успешности в интерактивном выполнении задач, который наблюдался в сценариях с открытыми, многоэтапными, ограниченными и прерванными инструкциями. Демонстрационные результаты показали, что Robix выполняет задачи гораздо эффективнее, чем существующие системы на основе GPT-4 и Gemini 2.5 Pro. Она успешно справляется с различными типами задач, включая: - Обслуживание столов в ресторане; - Покупка продуктов в магазине; - Отбор продуктов, соответствующих определенным тре

Abstract

We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix further introduces novel capabilities such as proactive dialogue, real-time interruption handling, and context-aware commonsense reasoning during task execution. At its core, Robix leverages chain-of-thought reasoning and adopts a three-stage training strategy: (1) continued pretraining to enhance foundational embodied reasoning abilities including 3D spatial understanding, visual grounding, and task-centric reasoning; (2) supervised finetuning to model human-robot interaction and task planning as a unified reasoning-action sequence; and (3) reinforcement learning to improve reasoning-action consistency and long-horizon task coherence. Extensive experiments demonstrate that Robix outperforms both open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in interactive task execution, demonstrating strong generalization across diverse instruction types (e.g., open-ended, multi-stage, constrained, invalid, and interrupted) and various user-involved tasks such as table bussing, grocery shopping, and dietary filtering.

Ссылки и действия