Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

2508.04280v1 cs.LG, cs.AI 2025-08-09

Авторы:

George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Контекст исследования заключается в развитии интерактивных мультимодальных агентов, которые могут эффективно использовать визуальные наблюдения для выполнения последовательности действий, условиями которых является языковой ввод. Такая задача представляет собой ключевой шаг к созданию систем, способных решать сложные задачи в реальном мире. Однако современные vision-language models (VLMs) ещё не обладают необходимыми способностями для эффективного выполнения таких задач в условиях динамических и непредсказуемых окружений. Прежние попытки применения reinforcement learning (RL) к VLMs сталкивались со значительными ограничениями. Многие методы требовали калибровки гиперпараметров, что делало их чувствительными к изменениям, или основывались на средах с высокой плотностью вознаграждений и низкой вариативностью состояний, что ограничивало их применимость в реальных ситуациях. Также, существующие подходы редко проверяли, насколько полученные модели могут обобщаться за пределами сред, в которых они были обучены. Это создавало значительный барьер для использования VLMs в реальных приложениях. Мотивацией исследования является разработка метода, который позволит обучать VLMs в простой и недорогой среде, но при этом обеспечит высокую способность к обобщению на реальных данных. Такой подход может стать важной вехой в развитии интеллектуальных систем, которые могут эффективно взаимодействовать с визуальной и языковой информацией в сложных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают Vision-Language Decoupled Actor-Critic (VL-DAC), новый легковесный алгоритм RL, предназначенный для обучения VLMs без необходимости гиперпараметрической настройки. Основной инновацией VL-DAC является декоуплирование обновлений для action tokens и value function. Алгоритм применяет Proximal Policy Optimization (PPO) на уровне action tokens, в то время как value function обучается только на уровне шагов в среде. Этот подход устраняет нестабильные весовые коэффициенты, которые характерны для традиционных RL-методов, и обеспечивает более быструю и надёжную сходимость. VL-DAC обучает VLMs последовательно в разных недорогих симуляторах, таких как MiniWorld, Gym-Cards, ALFWorld и WebShop. Это позволяет модели развивать универсальные стратегии, которые могут быть эффективно перенесены на реальные задачи. Архитектура VL-DAC проста в реализации и не требовательна к вычислительным ресурсам, что делает её пригодной для широкого круга приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на нескольких бенчмарках, включая BALROG (для игрового контроля), VSI-Bench (для пространственного планирования) и VisualWebBench (для навигации в вебе). Результаты показали значительные улучшения: +50% относительного прироста на BALROG, +5% на самой сложной части VSI-Bench и +2% на VisualWebBench. Эти улучшения были достигнуты без ух peor данности общей точности распознавания изображений, что подтверждает эффективность VL-DAC в обеспечении обобщения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость VL-DAC заключается в его способности обучать VLMs в недорогих симуляторах, при этом обеспечивая высокую эффективность в реальных задачах. Это открывает новые возможности для применения VLMs в областях таких как агентский контроль, пространственное планирование и навигация в вебе. Метод также может быть использован в сферах, требующих высокого уровня взаимодействия между визуальными и языковыми компонентами, что делает его полезным для разработки интеллектуальных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что VL-DAC является первым алгоритмом, способным обучать VLMs в простых симуляторах и показывающим значительные результаты на реальных задачах. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности алгоритма и расширении его применимости к более сложным задачам и средам.

Abstract

Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state variability. We introduce Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight, hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens while learning value only at the environment-step level: an arrangement, to our knowledge, not previously explored for large VLMs or LLMs. This simple decoupling removes unstable weighting terms and yields faster, more reliable convergence. Training a single VLM with VL-DAC in one inexpensive simulator at a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies that generalize widely: +50\% relative on BALROG (game-centric agentic control), +5\% relative on the hardest part of VSI-Bench (spatial planning), and +2\% on VisualWebBench (web navigation), all without degrading general image understanding accuracy. These results provide the first evidence that a simple RL algorithm can train VLMs entirely in cheap synthetic worlds while delivering measurable gains on real-image agentic, spatial-reasoning, and web-navigation benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация