Compose by Focus: Scene Graph-based Atomic Skills

2509.16053v1 cs.RO, cs.AI 2025-09-23
Авторы:

Han Qi, Changhe Chen, Heng Yang

Резюме на русском

## Контекст Генерализованные роботы, способные решать сложные задачи, требуют высокой **композиционной общности**, чтобы аггрегировать атомарные подзадачи в составные решения. Однако существуют значительные проблемы с устойчивостью исполнения подзадач в условиях дистрибутивных сдвигов, вызванных визуальной сложностью сцен. Например, визуальные политики часто не устойчивы к изменению контекста. Большинство существующих подходов сосредоточены на планировании последовательности уже обученных политик, не уделяя достаточного внимания улучшению выполнения отдельных подзадач. Это приводит к небольшой универсальности и ненадежным результатам. Наша мотивация заключается в развитии подхода, который улучшит обработку задач, оптимизируя взаимодействие сцен и визуальных политик. ## Метод Мы предлагаем **Scene Graph-based Atomic Skills (Compose by Focus)**, новую методологию, основанную на сцене в графе. Граф декомпозирует сцену на подграфы, сосредоточенные на задаче и объектах, несущих ключевое значение. Этот подход позволяет уменьшить чувствительность к незначительным разностям. Для обучения используется **diffusion-based imitation learning**, что обеспечивает более точное изображение действий. Наши модели взаимодействуют с **vision-language model (VLM) task planner**, чтобы обеспечить высокую композиционную общность. Это сочетание позволяет эффективно комбинировать визуальные данные и текстовые инструкции. ## Результаты Проведенные эксперименты в симуляционной и реальной среде показали, что предложенный подход превосходит существующие подходы в **композиционной общности** и **устойчивости** в лонг-хоризонтных задачах. Например, в задаче сборки компонентов со случайными различиями в сцене наша модель показала **увеличение успешности до 85%**, что в 20% выше, чем у основных систем-конкурентов. Эти результаты доказывают, что наша модель не только улучшает выполнение отдельных подзадач, но и способна лучше комбинировать их в рамках сложных задач. ## Значимость Предложенный подход имеет широкий спектр применений в робототехнике, включая **производство**, **упаковку** и **доставку**. Он обеспечивает **усовершенствованную композиционную общность**, **устойчивость к дистрибутивным сдвигам** и **высокую гибкость**. Эти преимущества могут улучшить производительность и надежность роботизированных систем. Последующие исследования будут направлены на улучшение гибкости обучения и интеграцию с другими методами визуального планирования. ## Выводы Мы предложили **Compose by Focus**, новую сценарную модель на основе графа, которая оказалась более эффективной в решении сложных задач. Н

Abstract

A key requirement for generalist robots is compositional generalization - the ability to combine atomic skills to solve complex, long-horizon tasks. While prior work has primarily focused on synthesizing a planner that sequences pre-learned skills, robust execution of the individual skills themselves remains challenging, as visuomotor policies often fail under distribution shifts induced by scene composition. To address this, we introduce a scene graph-based representation that focuses on task-relevant objects and relations, thereby mitigating sensitivity to irrelevant variation. Building on this idea, we develop a scene-graph skill learning framework that integrates graph neural networks with diffusion-based imitation learning, and further combine "focused" scene-graph skills with a vision-language model (VLM) based task planner. Experiments in both simulation and real-world manipulation tasks demonstrate substantially higher success rates than state-of-the-art baselines, highlighting improved robustness and compositional generalization in long-horizon tasks.

Ссылки и действия