Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy
2508.13103v1
cs.RO, cs.CV
2025-08-20
Авторы:
Tianyi Zhang, Haonan Duan, Haoran Hao, Yu Qiao, Jifeng Dai, Zhi Hou
Резюме на русском
## Контекст
Визуально-языково-действительные (Vision-Language-Action, VLA) модели широко используются в автоматизации и робототехнике для решения задач работы с роботами в сложных средах. Однако эти модели часто сталкиваются с проблемами при попытке обобщения на реальные условия. Это происходит из-за различий между пространством наблюдений (как видит камера) и пространством действий (координаты робота), что приводит к неточностям в управлении. Исследователи стараются решить эту проблему, создавая модели, которые будут более точно и надежно работать в разных условиях.
## Метод
Методология, представленная в статье, называется Observation-Centric VLA (OC-VLA). Она предлагает новый подход к решению проблемы пространственных расхождений. В этой модели действия предсказываются не в основной системе координат робота (базовой), а в пространстве камеры, то есть в той системе, в которой происходят наблюдения. Для этого используется калибровочная матрица камеры, которая позволяет преобразовывать координаты действий из основной системы в пространство камеры. Эта техника легко встраивается в существующие VLA-модели и не требует значительных изменений в их архитектуре.
## Результаты
Результаты экспериментов показали, что OC-VLA значительно улучшает производительность моделей. Модель была проверена как на симуляторах, так и на реальных роботах. Она ускоряет сходимость в ходе обучения, повышает успешность выполнения задач и улучшает общую производительность при перекрестных просмотрах (cross-view generalization). Эти результаты доказывают, что OC-VLA значительно улучшает точность и надежность моделей VLA в разных условиях.
## Значимость
Предложенная модель OC-VLA имеет широкие приложения в различных областях, включая автоматизацию производств, роботов-уборщиков, роботов-массажистов и других систем, которые должны работать в разных условиях. Основное преимущество системы OC-VLA заключается в ее универсальности и легкомысленности внедрения в существующие модели. Это улучшает точность работы моделей и повышает их устойчивость к переменам во внешних условиях.
## Выводы
Результаты исследований показывают, что OC-VLA является эффективным подходом к решению проблем пространственных расхождений в VLA-моделях. В дальнейшем будут ведены исследования по улучшению точности модели и расширению её применения в различных сферах робототехники и автоматизации, чтобы дальше повысить качество и надежность управления роботами.
Abstract
Vision-Language-Action (VLA) models frequently encounter challenges in
generalizing to real-world environments due to inherent discrepancies between
observation and action spaces. Although training data are collected from
diverse camera perspectives, the models typically predict end-effector poses
within the robot base coordinate frame, resulting in spatial inconsistencies.
To mitigate this limitation, we introduce the Observation-Centric VLA (OC-VLA)
framework, which grounds action predictions directly in the camera observation
space. Leveraging the camera's extrinsic calibration matrix, OC-VLA transforms
end-effector poses from the robot base coordinate system into the camera
coordinate system, thereby unifying prediction targets across heterogeneous
viewpoints. This lightweight, plug-and-play strategy ensures robust alignment
between perception and action, substantially improving model resilience to
camera viewpoint variations. The proposed approach is readily compatible with
existing VLA architectures, requiring no substantial modifications.
Comprehensive evaluations on both simulated and real-world robotic manipulation
tasks demonstrate that OC-VLA accelerates convergence, enhances task success
rates, and improves cross-view generalization. The code will be publicly
available.
Ссылки и действия
Дополнительные ресурсы: