DETACH: Cross-domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts
2508.07842v1
cs.RO, cs.AI
2025-08-13
Авторы:
Yutong Shen, Hangxu Liu, Penghui Liu, Ruizhe Xia, Tianyi Yao, Yitong Sun, Tongtong Feng
Резюме на русском
## Контекст
В области Human-Scene Interaction (HSI) существуют сложные задачи с длительным горизонтом (Long-Horizon, LH), требующие комплексного планирования, последовательного принятия решений и продолжительного выполнения действий. Такие задачи часто состоят из нескольких этапов, которые требуют грамотной координации потоков данных и выполнения задач в различных сценарных условиях. Однако, существующие методы, основывающиеся на цепочках умений (skill chaining), обучаются независимо для каждой подзадачи, что приводит к ограниченной мобильности между разными сценариями. Более того, эти методы не могут эффективно обрабатывать новые комбинации среды и задач, что приводит к недостаточной универсальности. Мотивация для настоящего исследования заключается в создании метода, который мощно решал бы эти проблемы, обеспечивая высокую гибкость и общую эффективность в ряде сложных LH-задач.
## Метод
Для решения этих проблем предложена модель **DETACH** (Cross-Domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts). Она основывается на двух модулях:
1. **Module среды (Environment Learning Module)**: Отвечает за понимание пространственных свойств среды, таких как функции объектов, их взаимосвязи, а также семантические характеристики сцены. Данный модуль разделяет среду от состояния самого агента, позволяя достичь эффективного переноса среды в различные домены.
2. **Module действий (Skill Learning Module)**: Отвечает за выполнение задач, обрабатывая самостоятельно состояние субъекта, включая жесты моторных систем и движения. Этот модуль предоставляет возможность переноса навыков между различными задачами, независимо от среды.
Для обеспечения эффективного комбинирования этих модулей в DETACH используется биологически вдохновленная модель "where-what", что позволяет динамически адаптироваться к новым задачам и сценариям.
## Результаты
В ходе экспериментов было продемонстрировано, что DETACH увеличивает среднюю успешность выполнения подзадач на 23% в сравнении с существующими методами. Более того, эффективность выполнения задач улучшилась на 29%, что значительно сократило время завершения задач. Эти результаты были получены на различных сценариях HSI, включая задачи с разными уровнями сложности и различными характеристиками сред. Это свидетельствует о том, что DETACH получил высокую гибкость и может эффективно решать задачи в разных условиях.
## Значимость
DETACH может быть применен в различных областях, таких как робототехника, интерактивные среды, а также в сфере обучения машин с целью решения LH-задач. Основное преимущество DETACH заключается в его универсальности и мощности в обработке новых сценариев с минимальным обучением. Это позволяет
Abstract
Long-Horizon (LH) tasks in Human-Scene Interaction (HSI) are complex
multi-step tasks that require continuous planning, sequential decision-making,
and extended execution across domains to achieve the final goal. However,
existing methods heavily rely on skill chaining by concatenating pre-trained
subtasks, with environment observations and self-state tightly coupled, lacking
the ability to generalize to new combinations of environments and skills,
failing to complete various LH tasks across domains. To solve this problem,
this paper presents DETACH, a cross-domain learning framework for LH tasks via
biologically inspired dual-stream disentanglement. Inspired by the brain's
"where-what" dual pathway mechanism, DETACH comprises two core modules: i) an
environment learning module for spatial understanding, which captures object
functions, spatial relationships, and scene semantics, achieving cross-domain
transfer through complete environment-self disentanglement; ii) a skill
learning module for task execution, which processes self-state information
including joint degrees of freedom and motor patterns, enabling cross-skill
transfer through independent motor pattern encoding. We conducted extensive
experiments on various LH tasks in HSI scenes. Compared with existing methods,
DETACH can achieve an average subtasks success rate improvement of 23% and
average execution efficiency improvement of 29%.
Ссылки и действия
Дополнительные ресурсы: