Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

2508.05342v1 cs.RO, cs.AI 2025-08-09
Авторы:

Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие робототехники требует создания систем, способных учиться на основе человеческих демонстраций. Однако традиционные подходы, основанные на имитации низкоуровневых траекторий, сталкиваются со сложностями при адаптации к различным типам объектов, пространственным конфигурациям и конфигурациям манипуляторов. Это ограничивает их применимость в реальных сценариях. Особенностью двуруких роботов является необходимость высокоуровневого пространственного и семантического восприятия, чтобы выполнять задачи, требующие координации между руками. Кроме того, существует проблема генерации политик поведения, которые могли бы быть легко интерпретируемыми и при этом эффективными в исполнении. В данной работе авторы решают эти проблемы, предложив фреймворк, который комбинирует визуальное, языковое и действительное восприятие для решения задач двурукого управления. Основная идея заключается в том, чтобы использовать теоретические подходы к обработке информации для выделения ключевых элементов сцены, таких как руки и объекты, и построить иерархические модели поведения, которые могут быть преобразованы в команды для робота. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, названный **Graph-Fused Vision-Language-Action (GF-VLA)**, состоит из нескольких этапов. В первую очередь, система использует информационно-теоретические критерии для определения ключевых элементов сцены, таких как руки и объекты, с максимальной релевантностью к задаче. Это позволяет создать **временно упорядоченные сценовые графы**, которые захватывают взаимодействия между руками, объектами и другими элементами сцены. Затем, эти графы функционально связываются с языковым контекстом через трансформерную модель, которая генерирует **иерархические поведенческие деревья** (behavior trees). Эти деревья представляют собой структурированные планы действий, которые могут быть легко интерпретируемыми человеком. Для оптимизации исполнения в двуручных системах, авторы предлагают **политику выбора гриферов** (gripper selection policy), которая определяет оптимальное назначение рук для выполнения задачи без необходимости явного геометрического анализа. Это позволяет улучшить эффективность исполнения задач в двуручных конфигурациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на четырёх задачах двуручного строительства блоков, включая конструирование символических форм, строительство букв и перестройку геометрических форм. Использованы данные из RGB и Depth камер, которые позволяют моделировать реальные условия работы робота. Результаты показали, что метод GF-VLA достигает высокой точности в построении графов (более 95%) и сегментации подзадач (93%). Использование полученных политик поведения приводит к высоким показателям успешности захвата (94%), точности размещения объектов (89%) и общей успешности выполнения задач (90%). ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий круг применений в области робототехники, особенно в задачах, требующих координации двух рук. Он может быть использован для обучения роботов на основе человеческих демонстраций в таких сферах, как производство, логистика и медицина. Одним из ключевых преимуществ является возможность генерировать интерпретируемые политики поведения, что упрощает отладку и модификацию задач. Кроме того, метод показывает высокую устойчивость к изменениям в пространственных и семантических условиях, что делает его применимым в различных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен фреймворк GF-VLA, который успешно решает задачи двуручного управления роботами на основе визуальных и языковых данных. Будущие исследования могут фокусироваться на расширении этого подхода для более сложных задач, включая работу в неструктурированных средах и с более сложными объектами. Также предлагается исследовать возможности интеграции этого метода с другими технологиями, такими как обучение с подкреплением, для дальнейшего улучшения производительности и автономности роботов.

Abstract

Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and objects with the highest task relevance, then encodes these cues into temporally ordered scene graphs that capture both hand-object and object-object interactions. These graphs are fused with a language-conditioned transformer that generates hierarchical behavior trees and interpretable Cartesian motion commands. To improve execution efficiency in bimanual settings, we further introduce a cross-hand selection policy that infers optimal gripper assignment without explicit geometric reasoning. We evaluate GF-VLA on four structured dual-arm block assembly tasks involving symbolic shape construction and spatial generalization. Experimental results show that the information-theoretic scene representation achieves over 95 percent graph accuracy and 93 percent subtask segmentation, supporting the LLM planner in generating reliable and human-readable task policies. When executed by the dual-arm robot, these policies yield 94 percent grasp success, 89 percent placement accuracy, and 90 percent overall task success across stacking, letter-building, and geometric reconfiguration scenarios, demonstrating strong generalization and robustness across diverse spatial and semantic variations.

Ссылки и действия