HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

2508.02629v2 cs.RO, cs.AI, cs.CL 2025-08-09
Авторы:

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Резюме на русском

Недавние достижения в области multimodal large language models (MLLMs) обеспечили богатый perceptual grounding для generation code policies в embodied agents. Однако, существующие системы часто не имеют эффективных механизмов для адаптивного мониторинга исполнения политик и исправления кода при выполнении задач. В данной работе мы предлагаем HyCodePolicy — гибридную языковую систему управления, которая систематически объединяет code synthesis, geometric grounding, perceptual monitoring и iterative repair в замкнутый цикл программирования для embodied agents. HyCodePolicy декомпозирует натуральные языковые инструкции на subgoals и генерирует исполняемый program, границы которого определяются object-centric geometric primitives. В ходе выполнения в simulation, vision-language model (VLM) идентифицирует и локализует execution failures, интерпретируя их причины. Объединение structured execution traces и VLM-based perceptual feedback позволяет HyCodePolicy исправлять program с минимальным human supervision. Наши результаты показывают, что HyCodePolicy существенно улучшает robustness и sample efficiency manipulation policies, предлагая scalable аппроксимацию multimodal reasoning в autonomous decision-making pipelines.

Abstract

Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop programming cycle for embodied agents. Technically, given a natural language instruction, our system first decomposes it into subgoals and generates an initial executable program grounded in object-centric geometric primitives. The program is then executed in simulation, while a vision-language model (VLM) observes selected checkpoints to detect and localize execution failures and infer failure reasons. By fusing structured execution traces capturing program-level events with VLM-based perceptual feedback, HyCodePolicy infers failure causes and repairs programs. This hybrid dual feedback mechanism enables self-correcting program synthesis with minimal human supervision. Our results demonstrate that HyCodePolicy significantly improves the robustness and sample efficiency of robot manipulation policies, offering a scalable strategy for integrating multimodal reasoning into autonomous decision-making pipelines.

Ссылки и действия

Связанные статьи

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Dr...

## Контекст Современные автономные системы движения сталкиваются с рядом сложностей в обеспечении безопасности и эффект...

2025-09-26

HARMONIC: A Content-Centric Cognitive Robotic Architecture

## Контекст Исследование HARMONIC адресовано развитию нового поколения роботов, входящих в состав гуманоидных команд. Ос...

2025-09-18

Using Natural Language for Human-Robot Collaboration in the Real World

## Контекст Современная технология развивается в графе создания автономных роботов, способных сотрудничать с людьми в пр...

2025-08-19