Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models
2509.04063v1
cs.RO, cs.LG
2025-09-06
Авторы:
Hongyin Zhang, Shiyuan Zhang, Junxi Jin, Qixin Zeng, Yifan Qiao, Hongchao Lu, Donglin Wang
Резюме на русском
## Контекст
Видение, языковая обработка и действия (VLA) — это модели, которые становятся все более важной частью искусственного интеллекта, особенно в области общего роботизированного манипулирования. Одним из основных вызовов этих моделей является поддержание высокой точности действий при работе с сложными задачами. Одним из ключевых факторов, влияющих на эту сложность, является то, что пост-тренировочные методы, основанные на имитации, не всегда удалось полностью учесть распределение свойств высокого качества данных. Это делает необходимым использование более гибких методов, которые могут оптимизировать распределение данных с ограниченным количеством подкреплением. Наше исследование ориентировано на разработку подхода, который бы сбалансировал подкрепление и стохастичность в моделях VLA, чтобы улучшить общую производительность моделей во время постобучения.
## Метод
Мы предлагаем Adaptive Reinforced Flow Matching (ARFM) — метод, который адаптивно оптимизирует подкрепление в моделях VLA. Наш метод включает в себя алгоритм, который строит принципиальный биас-вариацият-объект, чтобы контролировать влияние подкрепления на форматирование модели. Мы используем адаптивный метод для регулирования веса распределения в зависимости от свойств качества данных. Основным элементом метода является регулирование вариации в точности модели, чтобы избежать переобучения в условиях слабых или сильных сигналов. Метод ARFM также включает в себя эффективную оценку производительности во время онлайн-файнтюнинга, чтобы обеспечить стабильность модели в разных условиях.
## Результаты
Мы проводили эксперименты на основе различных синтетических и реальных данных, сравнивая ARFM с другими популярными подходами в области онлайн и оффлайн RL. Наши результаты показывают, что ARFM достигает высокой точности действий в тестовых задачах и демонстрирует лучший показатель общей производительности в ситуациях с несбалансированными данными. Также мы проводили симуляции для оценки работы модели в разных уровнях сложности и ситуаций с нестандартными потоками данных. Наши результаты показали, что ARFM значительно снижает разброс в результатах и повышает устойчивость модели во время постобучения.
## Значимость
Метод ARFM может применяться в сложных задачах, где необходимо поддержание высокой точности действий в условиях нестабильных потоков данных. ARFM минимизирует влияние переменных данных на модель, что делает ее более гибкой и эффективной в различных применениях. Модель также показала способность к continuous learning, что делает ее привлекательной для применения в реальной среде, где возможны изменения сценариев
Abstract
Vision-Language-Action (VLA) models based on flow matching have shown
excellent performance in general-purpose robotic manipulation tasks. However,
the action accuracy of these models on complex downstream tasks is
unsatisfactory. One important reason is that these models rely solely on the
post-training paradigm of imitation learning, which makes it difficult to have
a deeper understanding of the distribution properties of data quality, which is
exactly what Reinforcement Learning (RL) excels at. In this paper, we
theoretically propose an offline RL post-training objective for VLA flow models
and induce an efficient and feasible offline RL fine-tuning algorithm --
Adaptive Reinforced Flow Matching (ARFM). By introducing an adaptively adjusted
scaling factor in the VLA flow model loss, we construct a principled
bias-variance trade-off objective function to optimally control the impact of
RL signal on flow loss. ARFM adaptively balances RL advantage preservation and
flow loss gradient variance control, resulting in a more stable and efficient
fine-tuning process. Extensive simulation and real-world experimental results
show that ARFM exhibits excellent generalization, robustness, few-shot
learning, and continuous learning performance.
Ссылки и действия
Дополнительные ресурсы: