Cross-Modal Instructions for Robot Motion Generation

2509.21107v1 cs.RO, cs.AI, cs.CV, cs.LG 2025-09-27
Авторы:

William Barron, Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

Резюме на русском

## Контекст Обучение роботам выполнять новые поведения обычно требует использования руководящих данных, например, телеоперации или кинезического обучения, когда представитель выполняет задачу вручную. Однако эти методы требуют значительных усилий для сбора данных и ограничиваются масштабом, так как создание больших датасетов с руководством человеком требует значительных затрат. Кроме того, текущие подходы, основанные на скетчах, сложно масштабировать, и их применение ограничивается простыми сценариями. В этой работе предлагается альтернативный подход, основанный на использовании кросс-модальных инструкций, которые позволяют роботам выполнять задачи с помощью примитивных меток, включая текстовые аннотации, вместо физических демонстраций поведения. ## Метод Предлагаемая методология, CrossInstruct, основывается на интеграции кросс-модальных инструкций в виде небольших меток в контекстное входное представление современных визуально-языковых моделей (VLM). Эти модели последовательно используются для вывода поведения робота, который затем синтезируется над несколькими 2D-представлениями и комбинируется в единую 3D-модель движения в рабочей области робота. Важной особенностью CrossInstruct является использование гранулярности в трехмерном пространстве и возможность управления точностью роботом. Дополнительно предлагается использовать подход в сочетании с принципами глубокого обучения, чтобы развивать политики на основе CrossInstruct и оптимизировать робототехнические задачи. ## Результаты Метод CrossInstruct был опробован на симуляционных задачах и настоящем оборудовании, что подтвердило его рентабельность в различных сценариях. В опытах, применяющихся в данной работе, демонстрируется возможность робота выполнять сложные задачи, включая перемещение предметов и их размещение, без дополнительного тренинга. Также показана эффективность CrossInstruct в качестве начального ввода для политик, последующим обучением с помощью глубокого обучения. Эти результаты подтверждают гибкость и эффективность предлагаемого подхода в различных робототехнических сценариях. ## Значимость Предлагаемый подход имеет широкие применения в сферах робототехники, таких как домашние роботы, производственная автоматизация и исследовательские задачи. Основные преимущества CrossInstruct заключаются в уменьшении усилий на сбор данных, увеличении масштабируемости и улучшении удобства работы с роботами для неподготовленных пользователей. Будущие исследования будут ориентированы на улучшение точности и устойчивости CrossInstruct, а также на расширение его применений в сложных робототехнических задачах, включая непрерывные движения и сценари

Abstract

Teaching robots novel behaviors typically requires motion demonstrations via teleoperation or kinaesthetic teaching, that is, physically guiding the robot. While recent work has explored using human sketches to specify desired behaviors, data collection remains cumbersome, and demonstration datasets are difficult to scale. In this paper, we introduce an alternative paradigm, Learning from Cross-Modal Instructions, where robots are shaped by demonstrations in the form of rough annotations, which can contain free-form text labels, and are used in lieu of physical motion. We introduce the CrossInstruct framework, which integrates cross-modal instructions as examples into the context input to a foundational vision-language model (VLM). The VLM then iteratively queries a smaller, fine-tuned model, and synthesizes the desired motion over multiple 2D views. These are then subsequently fused into a coherent distribution over 3D motion trajectories in the robot's workspace. By incorporating the reasoning of the large VLM with a fine-grained pointing model, CrossInstruct produces executable robot behaviors that generalize beyond the environment of in the limited set of instruction examples. We then introduce a downstream reinforcement learning pipeline that leverages CrossInstruct outputs to efficiently learn policies to complete fine-grained tasks. We rigorously evaluate CrossInstruct on benchmark simulation tasks and real hardware, demonstrating effectiveness without additional fine-tuning and providing a strong initialization for policies subsequently refined via reinforcement learning.

Ссылки и действия