DETACH: Cross-domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts

2508.07842v1 cs.RO, cs.AI 2025-08-13

Авторы:

Yutong Shen, Hangxu Liu, Penghui Liu, Ruizhe Xia, Tianyi Yao, Yitong Sun, Tongtong Feng

Резюме на русском

## Контекст В области Human-Scene Interaction (HSI) существуют сложные задачи с длительным горизонтом (Long-Horizon, LH), требующие комплексного планирования, последовательного принятия решений и продолжительного выполнения действий. Такие задачи часто состоят из нескольких этапов, которые требуют грамотной координации потоков данных и выполнения задач в различных сценарных условиях. Однако, существующие методы, основывающиеся на цепочках умений (skill chaining), обучаются независимо для каждой подзадачи, что приводит к ограниченной мобильности между разными сценариями. Более того, эти методы не могут эффективно обрабатывать новые комбинации среды и задач, что приводит к недостаточной универсальности. Мотивация для настоящего исследования заключается в создании метода, который мощно решал бы эти проблемы, обеспечивая высокую гибкость и общую эффективность в ряде сложных LH-задач. ## Метод Для решения этих проблем предложена модель **DETACH** (Cross-Domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts). Она основывается на двух модулях: 1. **Module среды (Environment Learning Module)**: Отвечает за понимание пространственных свойств среды, таких как функции объектов, их взаимосвязи, а также семантические характеристики сцены. Данный модуль разделяет среду от состояния самого агента, позволяя достичь эффективного переноса среды в различные домены. 2. **Module действий (Skill Learning Module)**: Отвечает за выполнение задач, обрабатывая самостоятельно состояние субъекта, включая жесты моторных систем и движения. Этот модуль предоставляет возможность переноса навыков между различными задачами, независимо от среды. Для обеспечения эффективного комбинирования этих модулей в DETACH используется биологически вдохновленная модель "where-what", что позволяет динамически адаптироваться к новым задачам и сценариям. ## Результаты В ходе экспериментов было продемонстрировано, что DETACH увеличивает среднюю успешность выполнения подзадач на 23% в сравнении с существующими методами. Более того, эффективность выполнения задач улучшилась на 29%, что значительно сократило время завершения задач. Эти результаты были получены на различных сценариях HSI, включая задачи с разными уровнями сложности и различными характеристиками сред. Это свидетельствует о том, что DETACH получил высокую гибкость и может эффективно решать задачи в разных условиях. ## Значимость DETACH может быть применен в различных областях, таких как робототехника, интерактивные среды, а также в сфере обучения машин с целью решения LH-задач. Основное преимущество DETACH заключается в его универсальности и мощности в обработке новых сценариев с минимальным обучением. Это позволяет

Abstract

Long-Horizon (LH) tasks in Human-Scene Interaction (HSI) are complex multi-step tasks that require continuous planning, sequential decision-making, and extended execution across domains to achieve the final goal. However, existing methods heavily rely on skill chaining by concatenating pre-trained subtasks, with environment observations and self-state tightly coupled, lacking the ability to generalize to new combinations of environments and skills, failing to complete various LH tasks across domains. To solve this problem, this paper presents DETACH, a cross-domain learning framework for LH tasks via biologically inspired dual-stream disentanglement. Inspired by the brain's "where-what" dual pathway mechanism, DETACH comprises two core modules: i) an environment learning module for spatial understanding, which captures object functions, spatial relationships, and scene semantics, achieving cross-domain transfer through complete environment-self disentanglement; ii) a skill learning module for task execution, which processes self-state information including joint degrees of freedom and motor patterns, enabling cross-skill transfer through independent motor pattern encoding. We conducted extensive experiments on various LH tasks in HSI scenes. Compared with existing methods, DETACH can achieve an average subtasks success rate improvement of 23% and average execution efficiency improvement of 29%.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DETACH: Cross-domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация