ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

2508.10333v1 cs.RO, cs.CV 2025-08-16

Авторы:

Wenxuan Song, Ziyang Zhou, Han Zhao, Jiayi Chen, Pengxiang Ding, Haodong Yan, Yuxin Huang, Feilong Tang, Donglin Wang, Haoang Li

Резюме на русском

## Контекст В последние годы становится все очевиднее, что визионно-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевыми для решения задач, требующих сочетания моделирования смысла из визуальных и текстовых сигналов с действительным взаимодействием в реальном мире. Тем не менее, текущие VLA-модели сталкиваются с проблемой того, что визуальное внимание распространяется неточно и неконтролируемо, а не на целевые области. Это ограничивает их точность и эффективность в выполнении задач, особенно в сложных сценариях с множеством объектов. Поэтому необходимо разработать модель, которая бы могла улучшить внимание и сфокусироваться на целевых объектах. Развивая эту идею, мы предлагаем модель ReconVLA, которая использует реконструкцию для активной регулировки визуального внимания. ## Метод ReconVLA является реконструктивной моделью VLA, в которой визуальное внимание контролируется с помощью модели размытия трансформера. Модель ориентируется на то, чтобы правильно определить и сосредоточить внимание на целевых объектах. Она работает следующим образом: после получения визуального сигнала модель визионно-языкового понимания, мы используем модель размытия для восстановления целевой области в изображении, которая соответствует целевым объектам. Этот процесс возвращает модель на целевые объекты, когда она изучает изображение, и позволяет ей извлекать тонкие детали, которые могут быть иначе упущены. Мы также создали большую предварительно обученную модель на основе 100 тысяч траекторий и 2 миллиона данных из открытых баз данных, повышающих общие возможности модели в реконструкции визуальных сигналов. ## Результаты Мы проводили эксперименты как в симуляционном, так и в реальном мире, чтобы проверить эффективность ReconVLA. Наши опыты показали, что модель ReconVLA превосходит текущие VLA-модели в точности и точности внимания. Мы также проверили ее возможность общего использования, используя нашу предварительно обученную модель. Эксперименты показали, что ReconVLA не только точно определяет целевые объекты, но и восстанавливает тонкие детали, которые могут быть недоступны в представлении визуального сигнала. Это демонстрирует мощь модели в тех областях, где точность внимания к реальным целям критична. ## Значимость Мы видим широкое применение ReconVLA в различных областях, где требуется точное взаимодействие с реальным миром, такие как автоматизированные роботы в производственных процессах, медицинские системы и системы управления домашним оборудованием. Наша модель предлагает значительные преимущест

Abstract

Recent advances in Vision-Language-Action (VLA) models have enabled robotic agents to integrate multimodal understanding with action execution. However, our empirical analysis reveals that current VLAs struggle to allocate visual attention to target regions. Instead, visual attention is always dispersed. To guide the visual attention grounding on the correct target, we propose ReconVLA, a reconstructive VLA model with an implicit grounding paradigm. Conditioned on the model's visual outputs, a diffusion transformer aims to reconstruct the gaze region of the image, which corresponds to the target manipulated objects. This process prompts the VLA model to learn fine-grained representations and accurately allocate visual attention, thus effectively leveraging task-specific visual information and conducting precise manipulation. Moreover, we curate a large-scale pretraining dataset comprising over 100k trajectories and 2 million data samples from open-source robotic datasets, further boosting the model's generalization in visual reconstruction. Extensive experiments in simulation and the real world demonstrate the superiority of our implicit grounding method, showcasing its capabilities of precise manipulation and generalization. Our project page is https://zionchow.github.io/ReconVLA/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация