A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
2509.15937v1
cs.RO, cs.AI
2025-09-23
Авторы:
Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
Резюме на русском
#### Контекст
Реальность-роботсы в области робототехники и искусственного интеллекта широко применяются в сложных, динамичных окружениях. Однако, успешное обучение в реальной среде часто сталкивается с проблемами, такими как недостаточность структурированных наград и неэффективность исследований. Это приводит к затруднениям в обучении моделей, которые успешно решают задачи в реальном мире. Для решения этой проблемы необходимо развитие моделей, которые могут эффективно интегрировать визуальную информацию, естественный язык и действия для построения грамотных и удобных в использовании систем.
#### Метод
Мы предлагаем VLAC (Vision-Language-Action-Critic), модель, которая становится критиком и политикой одновременно, используя объединенные токены реакции и действий. Модель обучена на больших данных, включающих визуальные и естественные языки, а также данные траекторий роботов и людей. Она выдает прогрессные сигналы и сигналы завершения задач, устраняя необходимость в ручной настройке наград. VLAC включает в себя механизмы для рефинера настройки, отсева неподходящих промптов и обнаружения ошибок и остановок. Она может генерировать прогресс и сигналы завершения задач в реальном времени, чтобы оптимизировать скорость и точность выполнения задач.
#### Результаты
Мы проводили эксперименты с VLAC в четырех различных задачах реального мира, связанных с манипуляцией. В ходе этих экспериментов, без использования людей в цикле обучения, VLAC повысила успешность до 90% в 200 эпизодах. Добавление людей в цикл, в том числе виде различных протоколов, таких как репликация демонстраций, интерактивное исследование и руководство человеком, позволило повысить эффективность обучения и достичь 100% успеха в задачах. Эти результаты показывают, что VLAC может эффективно работать в реальных условиях, обеспечивая быструю и точную интеграцию.
#### Значимость
Модель VLAC может применяться в различных областях, включая домохозяйства, промышленность и роботов-компаньонов. Она обеспечивает точное взаимодействие с окружением, эффективное использование ресурсов и удобные интерфейсы для пользователей. Это модель может быть использована для ускорения и безопасности задач, касающихся манипуляции, а также для развития роботов с повышенной интерпретируемостью.
#### Выводы
Мы представили VLAC, модель, которая значительно улучшила эффективность обучения в реальной среде. Мы также показали, что использование людей в цикле может существенно повысить эффективность обучения и достичь полной успешности в задачах. Наше исследование
Abstract
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.
Ссылки и действия
Дополнительные ресурсы: