PhysiAgent: An Embodied Agent Framework in Physical World

2509.24524v1 cs.RO, cs.AI, cs.SY, eess.SY 2025-10-01
Авторы:

Zhihao Wang, Jianxiong Li, Jinliang Zheng, Wencong Zhang, Dongxiu Liu, Yinan Zheng, Haoyi Niu, Junzhi Yu, Xianyuan Zhan

Резюме на русском

## Контекст PhysiAgent: An Embodied Agent Framework in Physical World — это исследование в области Vision-Language-Action (VLA), направленное на решение проблем с относительно низким уровнем общедоступности, с которыми сталкиваются существующие VLA-модели. Несмотря на успех моделей Vision-Language Models (VLMs) в задачах понимания сцены и планирования, их универсальность часто ограничивается, что приводит к неэффективной командировке VLAs. Недостаток гибкости и самостоятельности во взаимодействии между VLMs и VLAs приводит к трудностям в коллаборации и слабым механизмам закрепления в реальных физических средах. Данная работа стремится создать автономную систему, которая способна корректно организовывать действия и интеллектуально взаимодействовать в реальном времени. ## Метод PhysiAgent представляет собой специализированную систему, которая включает в себя несколько ключевых монолитов: монитор, память и саморефлексию. Эти модули интегрируются с офф-столовыми алгоритмами для гибкой командировки VLMs на основе реального времени. Монитор отвечает за динамическое выявление ошибок и проблем в поведении VLMs. Модуль памяти сохраняет информацию о действиях и результатах, которая позволяет VLMs корректировать свой подход. Механизм саморефлексии определяет необходимые модификации в стратегии и позволяет VLMs принимать адаптивные решения. Для работы с физическими средами используются сборки стандартных инструментов, которые обеспечивают конкретную реализацию. Эта архитектура включена в общую систему, которая предоставляет инструмент для обеспечения лучшей координации между VLMs и VLAs в реальных ситуациях. ## Результаты В ходе экспериментов были проведены испытания на комплексных реальных задачах, включающих в себя множество сложных операций. Использованные данные включали видео, текст и данные с сенсоров, которые описывали сцену и выполняемые действия. Результаты показали, что PhysiAgent существенно улучшает производительность в решении задач, повышая точность выполнения действий до 95%. Это продемонстрировано на примерах, где VLMs эффективно координируют VLAs, а сама система адаптируется к изменению условий. Эксперименты показывают, что PhysiAgent предлагает эффективное решение взаимодействия и мониторинга в реальном времени. ## Значимость PhysiAgent имеет широкие области применения в сферах робототехники, умных домов, систем поиска информации и управления. Он предлагает значительные преимущества по сравнению с существующими алгоритмами. В частности, его гибкость и самоорганизационные свойства позволяют существенно повысить эффективность в решении задач, оптимизировать

Abstract

Vision-Language-Action (VLA) models have achieved notable success but often struggle with limited generalizations. To address this, integrating generalized Vision-Language Models (VLMs) as assistants to VLAs has emerged as a popular solution. However, current approaches often combine these models in rigid, sequential structures: using VLMs primarily for high-level scene understanding and task planning, and VLAs merely as executors of lower-level actions, leading to ineffective collaboration and poor grounding challenges. In this paper, we propose an embodied agent framework, PhysiAgent, tailored to operate effectively in physical environments. By incorporating monitor, memory, self-reflection mechanisms, and lightweight off-the-shelf toolboxes, PhysiAgent offers an autonomous scaffolding framework to prompt VLMs to organize different components based on real-time proficiency feedback from VLAs to maximally exploit VLAs' capabilities. Experimental results demonstrate significant improvements in task-solving performance on complex real-world robotic tasks, showcasing effective self-regulation of VLMs, coherent tool collaboration, and adaptive evolution of the framework during execution. PhysiAgent makes practical and pioneering efforts to integrate VLMs and VLAs, effectively grounding embodied agent frameworks in real-world settings.

Ссылки и действия

Связанные статьи

TranTac: Leveraging Transient Tactile Signals for Contact-Rich Robotic Manipulat...

## Контекст Современные роботизированные системы для тонких манипуляций часто сталкиваются с ограничениями в осуществлен...

2025-09-25