ComposableNav: Instruction-Following Navigation in Dynamic Environments via Composable Diffusion
2509.17941v1
cs.RO, cs.AI, cs.CV, cs.LG
2025-09-24
Авторы:
Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas
Резюме на русском
## Контекст
Это исследование ориентируется на задачу позволить роботам эффективно руководствоваться инструкциями в динамичных средах. Роботы, отвечающие на инструкции, должны уметь интерпретировать и выполнять сложные комбинации заданий, такие как "переспать пешехода, оставаясь на правой стороне дороги." Такие задачи характеризуются высокой сложностью из-за возможных комбинаций инструкций, возрастающих экспоненциально вместе с расширением набора роботских способностей. Традиционные подходы, такие как визуальные модели, либо не способны обрабатывать такие комбинации, либо требуют ненагруженных демонстраций для каждого отдельного движения. Это ограничение громоздко и неэффективно. Мотивируя надеждой на продвижение в области робототехники, авторы предлагают решение, которое обеспечивает более гибкое и эффективное следование инструкциям.
## Метод
Методология ComposableNav основывается на понятии "диффузионных моделей", которые позволяют разделить сложные задачи на отдельные движения — "мотививные примитивы." Каждый примитив обучается отдельно с помощью супервизованного предварительного обучения. Затем эти мотививные примитивы объединяются в различные комбинации во время работы, чтобы удовлетворить новые и непредсказуемые задачи. Для обучения используется два этапа: предварительное супервизованное обучение для обучения основного шаблона диффузии, а затем рефинтренирование через расширенное подкрепление, чтобы приспособить модель к отдельным примитивам. Это позволяет роботу вырабатывать комбинации движений, не имея предварительных демонстраций для каждого примитива.
## Результаты
Исследования проводились как в симуляционной, так и в реальной среде. Запуском робота были использованы набор инструкций, включающих разные комбинации, невиденные во время обучения. Результаты показали, что ComposableNav не только успешно удовлетворяет комбинации, но и превосходит другие подходы, такие как нетрадиционные политики на основе визуальных моделей и стохастические базисы составления карт. Результаты показывают, что робот способен регулярно принимать правильные решения в разных ситуациях, таких как переспать пешехода и оставаться на предустановленной стороне дороги. Особенно выделяется высокая гибкость ComposableNav при обработке непредсказуемых задач.
## Значимость
ComposableNav имеет широкие возможности применения в робототехнике, включая водительские системы, новые технологии в здравоохранении, домашние роботы и системы автоматизации на производстве. Это решение обеспечивает более эффективный и гибкий принцип действия в сложных и динамических средах. В отличие от других подходов, ComposableNav
Abstract
This paper considers the problem of enabling robots to navigate dynamic
environments while following instructions. The challenge lies in the
combinatorial nature of instruction specifications: each instruction can
include multiple specifications, and the number of possible specification
combinations grows exponentially as the robot's skill set expands. For example,
"overtake the pedestrian while staying on the right side of the road" consists
of two specifications: "overtake the pedestrian" and "walk on the right side of
the road." To tackle this challenge, we propose ComposableNav, based on the
intuition that following an instruction involves independently satisfying its
constituent specifications, each corresponding to a distinct motion primitive.
Using diffusion models, ComposableNav learns each primitive separately, then
composes them in parallel at deployment time to satisfy novel combinations of
specifications unseen in training. Additionally, to avoid the onerous need for
demonstrations of individual motion primitives, we propose a two-stage training
procedure: (1) supervised pre-training to learn a base diffusion model for
dynamic navigation, and (2) reinforcement learning fine-tuning that molds the
base model into different motion primitives. Through simulation and real-world
experiments, we show that ComposableNav enables robots to follow instructions
by generating trajectories that satisfy diverse and unseen combinations of
specifications, significantly outperforming both non-compositional VLM-based
policies and costmap composing baselines. Videos and additional materials can
be found on the project page: https://amrl.cs.utexas.edu/ComposableNav/