Compose by Focus: Scene Graph-based Atomic Skills
2509.16053v1
cs.RO, cs.AI
2025-09-23
Авторы:
Han Qi, Changhe Chen, Heng Yang
Резюме на русском
## Контекст
Генерализованные роботы, способные решать сложные задачи, требуют высокой **композиционной общности**, чтобы аггрегировать атомарные подзадачи в составные решения. Однако существуют значительные проблемы с устойчивостью исполнения подзадач в условиях дистрибутивных сдвигов, вызванных визуальной сложностью сцен. Например, визуальные политики часто не устойчивы к изменению контекста. Большинство существующих подходов сосредоточены на планировании последовательности уже обученных политик, не уделяя достаточного внимания улучшению выполнения отдельных подзадач. Это приводит к небольшой универсальности и ненадежным результатам. Наша мотивация заключается в развитии подхода, который улучшит обработку задач, оптимизируя взаимодействие сцен и визуальных политик.
## Метод
Мы предлагаем **Scene Graph-based Atomic Skills (Compose by Focus)**, новую методологию, основанную на сцене в графе. Граф декомпозирует сцену на подграфы, сосредоточенные на задаче и объектах, несущих ключевое значение. Этот подход позволяет уменьшить чувствительность к незначительным разностям. Для обучения используется **diffusion-based imitation learning**, что обеспечивает более точное изображение действий. Наши модели взаимодействуют с **vision-language model (VLM) task planner**, чтобы обеспечить высокую композиционную общность. Это сочетание позволяет эффективно комбинировать визуальные данные и текстовые инструкции.
## Результаты
Проведенные эксперименты в симуляционной и реальной среде показали, что предложенный подход превосходит существующие подходы в **композиционной общности** и **устойчивости** в лонг-хоризонтных задачах. Например, в задаче сборки компонентов со случайными различиями в сцене наша модель показала **увеличение успешности до 85%**, что в 20% выше, чем у основных систем-конкурентов. Эти результаты доказывают, что наша модель не только улучшает выполнение отдельных подзадач, но и способна лучше комбинировать их в рамках сложных задач.
## Значимость
Предложенный подход имеет широкий спектр применений в робототехнике, включая **производство**, **упаковку** и **доставку**. Он обеспечивает **усовершенствованную композиционную общность**, **устойчивость к дистрибутивным сдвигам** и **высокую гибкость**. Эти преимущества могут улучшить производительность и надежность роботизированных систем. Последующие исследования будут направлены на улучшение гибкости обучения и интеграцию с другими методами визуального планирования.
## Выводы
Мы предложили **Compose by Focus**, новую сценарную модель на основе графа, которая оказалась более эффективной в решении сложных задач. Н
Abstract
A key requirement for generalist robots is compositional generalization - the
ability to combine atomic skills to solve complex, long-horizon tasks. While
prior work has primarily focused on synthesizing a planner that sequences
pre-learned skills, robust execution of the individual skills themselves
remains challenging, as visuomotor policies often fail under distribution
shifts induced by scene composition. To address this, we introduce a scene
graph-based representation that focuses on task-relevant objects and relations,
thereby mitigating sensitivity to irrelevant variation. Building on this idea,
we develop a scene-graph skill learning framework that integrates graph neural
networks with diffusion-based imitation learning, and further combine "focused"
scene-graph skills with a vision-language model (VLM) based task planner.
Experiments in both simulation and real-world manipulation tasks demonstrate
substantially higher success rates than state-of-the-art baselines,
highlighting improved robustness and compositional generalization in
long-horizon tasks.
Ссылки и действия
Дополнительные ресурсы: