Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success
2508.04280v1
cs.LG, cs.AI
2025-08-09
Авторы:
George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Контекст исследования заключается в развитии интерактивных мультимодальных агентов, которые могут эффективно использовать визуальные наблюдения для выполнения последовательности действий, условиями которых является языковой ввод. Такая задача представляет собой ключевой шаг к созданию систем, способных решать сложные задачи в реальном мире. Однако современные vision-language models (VLMs) ещё не обладают необходимыми способностями для эффективного выполнения таких задач в условиях динамических и непредсказуемых окружений.
Прежние попытки применения reinforcement learning (RL) к VLMs сталкивались со значительными ограничениями. Многие методы требовали калибровки гиперпараметров, что делало их чувствительными к изменениям, или основывались на средах с высокой плотностью вознаграждений и низкой вариативностью состояний, что ограничивало их применимость в реальных ситуациях. Также, существующие подходы редко проверяли, насколько полученные модели могут обобщаться за пределами сред, в которых они были обучены. Это создавало значительный барьер для использования VLMs в реальных приложениях.
Мотивацией исследования является разработка метода, который позволит обучать VLMs в простой и недорогой среде, но при этом обеспечит высокую способность к обобщению на реальных данных. Такой подход может стать важной вехой в развитии интеллектуальных систем, которые могут эффективно взаимодействовать с визуальной и языковой информацией в сложных условиях.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают Vision-Language Decoupled Actor-Critic (VL-DAC), новый легковесный алгоритм RL, предназначенный для обучения VLMs без необходимости гиперпараметрической настройки. Основной инновацией VL-DAC является декоуплирование обновлений для action tokens и value function. Алгоритм применяет Proximal Policy Optimization (PPO) на уровне action tokens, в то время как value function обучается только на уровне шагов в среде. Этот подход устраняет нестабильные весовые коэффициенты, которые характерны для традиционных RL-методов, и обеспечивает более быструю и надёжную сходимость.
VL-DAC обучает VLMs последовательно в разных недорогих симуляторах, таких как MiniWorld, Gym-Cards, ALFWorld и WebShop. Это позволяет модели развивать универсальные стратегии, которые могут быть эффективно перенесены на реальные задачи. Архитектура VL-DAC проста в реализации и не требовательна к вычислительным ресурсам, что делает её пригодной для широкого круга приложений.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Исследование проводилось на нескольких бенчмарках, включая BALROG (для игрового контроля), VSI-Bench (для пространственного планирования) и VisualWebBench (для навигации в вебе). Результаты показали значительные улучшения: +50% относительного прироста на BALROG, +5% на самой сложной части VSI-Bench и +2% на VisualWebBench. Эти улучшения были достигнуты без ух peor данности общей точности распознавания изображений, что подтверждает эффективность VL-DAC в обеспечении обобщения.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Практическая значимость VL-DAC заключается в его способности обучать VLMs в недорогих симуляторах, при этом обеспечивая высокую эффективность в реальных задачах. Это открывает новые возможности для применения VLMs в областях таких как агентский контроль, пространственное планирование и навигация в вебе. Метод также может быть использован в сферах, требующих высокого уровня взаимодействия между визуальными и языковыми компонентами, что делает его полезным для разработки интеллектуальных систем.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Исследование демонстрирует, что VL-DAC является первым алгоритмом, способным обучать VLMs в простых симуляторах и показывающим значительные результаты на реальных задачах. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности алгоритма и расширении его применимости к более сложным задачам и средам.
Abstract
Interactive multimodal agents must convert raw visual observations into
coherent sequences of language-conditioned actions -- a capability that current
vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL)
efforts could, in principle, endow VLMs with such skills, but they have seldom
tested whether the learned behaviours generalize beyond their training
simulators, and they depend either on brittle hyperparameter tuning or on
dense-reward environments with low state variability. We introduce
Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight,
hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens
while learning value only at the environment-step level: an arrangement, to our
knowledge, not previously explored for large VLMs or LLMs. This simple
decoupling removes unstable weighting terms and yields faster, more reliable
convergence. Training a single VLM with VL-DAC in one inexpensive simulator at
a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies
that generalize widely: +50\% relative on BALROG (game-centric agentic
control), +5\% relative on the hardest part of VSI-Bench (spatial planning),
and +2\% on VisualWebBench (web navigation), all without degrading general
image understanding accuracy. These results provide the first evidence that a
simple RL algorithm can train VLMs entirely in cheap synthetic worlds while
delivering measurable gains on real-image agentic, spatial-reasoning, and
web-navigation benchmarks.
Ссылки и действия
Дополнительные ресурсы: