Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models

2509.04063v1 cs.RO, cs.LG 2025-09-06
Авторы:

Hongyin Zhang, Shiyuan Zhang, Junxi Jin, Qixin Zeng, Yifan Qiao, Hongchao Lu, Donglin Wang

Резюме на русском

## Контекст Видение, языковая обработка и действия (VLA) — это модели, которые становятся все более важной частью искусственного интеллекта, особенно в области общего роботизированного манипулирования. Одним из основных вызовов этих моделей является поддержание высокой точности действий при работе с сложными задачами. Одним из ключевых факторов, влияющих на эту сложность, является то, что пост-тренировочные методы, основанные на имитации, не всегда удалось полностью учесть распределение свойств высокого качества данных. Это делает необходимым использование более гибких методов, которые могут оптимизировать распределение данных с ограниченным количеством подкреплением. Наше исследование ориентировано на разработку подхода, который бы сбалансировал подкрепление и стохастичность в моделях VLA, чтобы улучшить общую производительность моделей во время постобучения. ## Метод Мы предлагаем Adaptive Reinforced Flow Matching (ARFM) — метод, который адаптивно оптимизирует подкрепление в моделях VLA. Наш метод включает в себя алгоритм, который строит принципиальный биас-вариацият-объект, чтобы контролировать влияние подкрепления на форматирование модели. Мы используем адаптивный метод для регулирования веса распределения в зависимости от свойств качества данных. Основным элементом метода является регулирование вариации в точности модели, чтобы избежать переобучения в условиях слабых или сильных сигналов. Метод ARFM также включает в себя эффективную оценку производительности во время онлайн-файнтюнинга, чтобы обеспечить стабильность модели в разных условиях. ## Результаты Мы проводили эксперименты на основе различных синтетических и реальных данных, сравнивая ARFM с другими популярными подходами в области онлайн и оффлайн RL. Наши результаты показывают, что ARFM достигает высокой точности действий в тестовых задачах и демонстрирует лучший показатель общей производительности в ситуациях с несбалансированными данными. Также мы проводили симуляции для оценки работы модели в разных уровнях сложности и ситуаций с нестандартными потоками данных. Наши результаты показали, что ARFM значительно снижает разброс в результатах и повышает устойчивость модели во время постобучения. ## Значимость Метод ARFM может применяться в сложных задачах, где необходимо поддержание высокой точности действий в условиях нестабильных потоков данных. ARFM минимизирует влияние переменных данных на модель, что делает ее более гибкой и эффективной в различных применениях. Модель также показала способность к continuous learning, что делает ее привлекательной для применения в реальной среде, где возможны изменения сценариев

Abstract

Vision-Language-Action (VLA) models based on flow matching have shown excellent performance in general-purpose robotic manipulation tasks. However, the action accuracy of these models on complex downstream tasks is unsatisfactory. One important reason is that these models rely solely on the post-training paradigm of imitation learning, which makes it difficult to have a deeper understanding of the distribution properties of data quality, which is exactly what Reinforcement Learning (RL) excels at. In this paper, we theoretically propose an offline RL post-training objective for VLA flow models and induce an efficient and feasible offline RL fine-tuning algorithm -- Adaptive Reinforced Flow Matching (ARFM). By introducing an adaptively adjusted scaling factor in the VLA flow model loss, we construct a principled bias-variance trade-off objective function to optimally control the impact of RL signal on flow loss. ARFM adaptively balances RL advantage preservation and flow loss gradient variance control, resulting in a more stable and efficient fine-tuning process. Extensive simulation and real-world experimental results show that ARFM exhibits excellent generalization, robustness, few-shot learning, and continuous learning performance.

Ссылки и действия