Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy

2508.13103v1 cs.RO, cs.CV 2025-08-20

Авторы:

Tianyi Zhang, Haonan Duan, Haoran Hao, Yu Qiao, Jifeng Dai, Zhi Hou

Резюме на русском

## Контекст Визуально-языково-действительные (Vision-Language-Action, VLA) модели широко используются в автоматизации и робототехнике для решения задач работы с роботами в сложных средах. Однако эти модели часто сталкиваются с проблемами при попытке обобщения на реальные условия. Это происходит из-за различий между пространством наблюдений (как видит камера) и пространством действий (координаты робота), что приводит к неточностям в управлении. Исследователи стараются решить эту проблему, создавая модели, которые будут более точно и надежно работать в разных условиях. ## Метод Методология, представленная в статье, называется Observation-Centric VLA (OC-VLA). Она предлагает новый подход к решению проблемы пространственных расхождений. В этой модели действия предсказываются не в основной системе координат робота (базовой), а в пространстве камеры, то есть в той системе, в которой происходят наблюдения. Для этого используется калибровочная матрица камеры, которая позволяет преобразовывать координаты действий из основной системы в пространство камеры. Эта техника легко встраивается в существующие VLA-модели и не требует значительных изменений в их архитектуре. ## Результаты Результаты экспериментов показали, что OC-VLA значительно улучшает производительность моделей. Модель была проверена как на симуляторах, так и на реальных роботах. Она ускоряет сходимость в ходе обучения, повышает успешность выполнения задач и улучшает общую производительность при перекрестных просмотрах (cross-view generalization). Эти результаты доказывают, что OC-VLA значительно улучшает точность и надежность моделей VLA в разных условиях. ## Значимость Предложенная модель OC-VLA имеет широкие приложения в различных областях, включая автоматизацию производств, роботов-уборщиков, роботов-массажистов и других систем, которые должны работать в разных условиях. Основное преимущество системы OC-VLA заключается в ее универсальности и легкомысленности внедрения в существующие модели. Это улучшает точность работы моделей и повышает их устойчивость к переменам во внешних условиях. ## Выводы Результаты исследований показывают, что OC-VLA является эффективным подходом к решению проблем пространственных расхождений в VLA-моделях. В дальнейшем будут ведены исследования по улучшению точности модели и расширению её применения в различных сферах робототехники и автоматизации, чтобы дальше повысить качество и надежность управления роботами.

Abstract

Vision-Language-Action (VLA) models frequently encounter challenges in generalizing to real-world environments due to inherent discrepancies between observation and action spaces. Although training data are collected from diverse camera perspectives, the models typically predict end-effector poses within the robot base coordinate frame, resulting in spatial inconsistencies. To mitigate this limitation, we introduce the Observation-Centric VLA (OC-VLA) framework, which grounds action predictions directly in the camera observation space. Leveraging the camera's extrinsic calibration matrix, OC-VLA transforms end-effector poses from the robot base coordinate system into the camera coordinate system, thereby unifying prediction targets across heterogeneous viewpoints. This lightweight, plug-and-play strategy ensures robust alignment between perception and action, substantially improving model resilience to camera viewpoint variations. The proposed approach is readily compatible with existing VLA architectures, requiring no substantial modifications. Comprehensive evaluations on both simulated and real-world robotic manipulation tasks demonstrate that OC-VLA accelerates convergence, enhances task success rates, and improves cross-view generalization. The code will be publicly available.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация