RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

2510.14968v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY 2025-10-18
Авторы:

Mingxuan Yan, Yuping Wang, Zechun Liu, Jiachen Li

Abstract

To tackle long-horizon tasks, recent hierarchical vision-language-action (VLAs) frameworks employ vision-language model (VLM)-based planners to decompose complex manipulation tasks into simpler sub-tasks that low-level visuomotor policies can easily handle. Typically, the VLM planner is finetuned to learn to decompose a target task. This finetuning requires target task demonstrations segmented into sub-tasks by either human annotation or heuristic rules. However, the heuristic subtasks can deviate significantly from the training data of the visuomotor policy, which degrades task performance. To address these issues, we propose a Retrieval-based Demonstration Decomposer (RDD) that automatically decomposes demonstrations into sub-tasks by aligning the visual features of the decomposed sub-task intervals with those from the training data of the low-level visuomotor policies. Our method outperforms the state-of-the-art sub-task decomposer on both simulation and real-world tasks, demonstrating robustness across diverse settings. Code and more results are available at rdd-neurips.github.io.

Ссылки и действия

Связанные статьи

VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Plan...

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного примене...

2025-09-25

ObjectReact: Learning Object-Relative Control for Visual Navigation

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привл...

2025-09-13

TANGO: Traversability-Aware Navigation with Local Metric Control for Topological...

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обуче...

2025-09-11

Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic ...

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяю...

2025-09-10

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulat...

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных ...

2025-08-27