ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
2508.10333v1
cs.RO, cs.CV
2025-08-16
Авторы:
Wenxuan Song, Ziyang Zhou, Han Zhao, Jiayi Chen, Pengxiang Ding, Haodong Yan, Yuxin Huang, Feilong Tang, Donglin Wang, Haoang Li
Резюме на русском
## Контекст
В последние годы становится все очевиднее, что визионно-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевыми для решения задач, требующих сочетания моделирования смысла из визуальных и текстовых сигналов с действительным взаимодействием в реальном мире. Тем не менее, текущие VLA-модели сталкиваются с проблемой того, что визуальное внимание распространяется неточно и неконтролируемо, а не на целевые области. Это ограничивает их точность и эффективность в выполнении задач, особенно в сложных сценариях с множеством объектов. Поэтому необходимо разработать модель, которая бы могла улучшить внимание и сфокусироваться на целевых объектах. Развивая эту идею, мы предлагаем модель ReconVLA, которая использует реконструкцию для активной регулировки визуального внимания.
## Метод
ReconVLA является реконструктивной моделью VLA, в которой визуальное внимание контролируется с помощью модели размытия трансформера. Модель ориентируется на то, чтобы правильно определить и сосредоточить внимание на целевых объектах. Она работает следующим образом: после получения визуального сигнала модель визионно-языкового понимания, мы используем модель размытия для восстановления целевой области в изображении, которая соответствует целевым объектам. Этот процесс возвращает модель на целевые объекты, когда она изучает изображение, и позволяет ей извлекать тонкие детали, которые могут быть иначе упущены. Мы также создали большую предварительно обученную модель на основе 100 тысяч траекторий и 2 миллиона данных из открытых баз данных, повышающих общие возможности модели в реконструкции визуальных сигналов.
## Результаты
Мы проводили эксперименты как в симуляционном, так и в реальном мире, чтобы проверить эффективность ReconVLA. Наши опыты показали, что модель ReconVLA превосходит текущие VLA-модели в точности и точности внимания. Мы также проверили ее возможность общего использования, используя нашу предварительно обученную модель. Эксперименты показали, что ReconVLA не только точно определяет целевые объекты, но и восстанавливает тонкие детали, которые могут быть недоступны в представлении визуального сигнала. Это демонстрирует мощь модели в тех областях, где точность внимания к реальным целям критична.
## Значимость
Мы видим широкое применение ReconVLA в различных областях, где требуется точное взаимодействие с реальным миром, такие как автоматизированные роботы в производственных процессах, медицинские системы и системы управления домашним оборудованием. Наша модель предлагает значительные преимущест
Abstract
Recent advances in Vision-Language-Action (VLA) models have enabled robotic
agents to integrate multimodal understanding with action execution. However,
our empirical analysis reveals that current VLAs struggle to allocate visual
attention to target regions. Instead, visual attention is always dispersed. To
guide the visual attention grounding on the correct target, we propose
ReconVLA, a reconstructive VLA model with an implicit grounding paradigm.
Conditioned on the model's visual outputs, a diffusion transformer aims to
reconstruct the gaze region of the image, which corresponds to the target
manipulated objects. This process prompts the VLA model to learn fine-grained
representations and accurately allocate visual attention, thus effectively
leveraging task-specific visual information and conducting precise
manipulation. Moreover, we curate a large-scale pretraining dataset comprising
over 100k trajectories and 2 million data samples from open-source robotic
datasets, further boosting the model's generalization in visual reconstruction.
Extensive experiments in simulation and the real world demonstrate the
superiority of our implicit grounding method, showcasing its capabilities of
precise manipulation and generalization. Our project page is
https://zionchow.github.io/ReconVLA/.
Ссылки и действия
Дополнительные ресурсы: