CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning
2508.02219v1
cs.RO, cs.LG
2025-08-09
Авторы:
Dongchi Huang, Zhirui Fang, Tianle Zhang, Yihang Li, Lin Zhao, Chunhe Xia
Резюме на русском
#### Контекст
VLA (Vision-Language-Action) модели широко применяются в развитии универсальных политик для реального мира, включая робототехнический контроль. Однако их конечные цели, такие как улучшение общей универсальности и выполнение задач в условиях неопределенности, требуют дополнительного улучшения. Несмотря на то, что находятся в интересующей области, техники тренировки VLA моделей с помощью Reinforcement Learning (RL) сталкиваются с проблемами, такими как неэффективность при обучении, несовместимость с chunked action и нестабильность тренировочного процесса. Эти проблемы подчеркивают необходимость разработки эффективных методов, позволяющих улучшить полученные результаты VLA моделей.
#### Метод
Мы предлагаем Chunked RL — новую методологию для оптимизации VLA моделей, включая детальную интеграцию chunked action в темporal difference (TD) learning. Данный подход позволяет обеспечить более эффективное участие в процессе обучения, сохранив логику задач с VLA моделями. Мы также предлагаем CO-RFT — новую алгоритмическую реализацию для оптимизации VLA моделей с помощью ограниченных наборов примеров демонстрационных данных (30-60 примеров). Метод CO-RFT начинает с имитационного обучения (IL) для инициализации модели в целом и политики в частности, а затем применяет offline RL с chunked action для дополнительной оптимизации. Этот подход позволяет достичь высокой эффективности, увеличивая успешность и уменьшая цикличность задач.
#### Результаты
Наши результаты в реальных средах показали, что CO-RFT значительно превосходит предыдущие супервизорные методы, повышая успешность задач на 57% и уменьшая цикличность на 22.3%. Кроме того, CO-RFT доказал способность генерализоваться в новых позициях, получив 44.3% успешных результатов в неизвестных условиях. Эти результаты подтверждают мощь Chunked RL и CO-RFT в улучшении VLA моделей, демонстрируя их универсальность и эффективность в реальных условиях.
#### Значимость
Метод CO-RFT имеет значительное применение в предметных областях, таких как робототехническая тренировка, управление производственными процессами, искусственный интеллект в реальном мире. Он предоставляет несколько преимуществ, включая улучшенную эффективность обучения, лучшую общую универсальность и высокую ценность в условиях неопределенности. Наш подход также может иметь потенциал для расширения точности и эффективности в других RL-based моделях, позволяя ими повысить производительность в сложных реальных задачах.
#### Выводы
Мы достигли важных достижений в оптимизации VLA моделей, используя Chunked RL и CO-RFT. Эти открытия позволяют улучшить целостность и эффективность VLA моделей в реаль
Abstract
Vision-Language-Action (VLA) models demonstrate significant potential for
developing generalized policies in real-world robotic control. This progress
inspires researchers to explore fine-tuning these models with Reinforcement
Learning (RL). However, fine-tuning VLA models with RL still faces challenges
related to sample efficiency, compatibility with action chunking, and training
stability. To address these challenges, we explore the fine-tuning of VLA
models through offline reinforcement learning incorporating action chunking. In
this work, we propose Chunked RL, a novel reinforcement learning framework
specifically designed for VLA models. Within this framework, we extend temporal
difference (TD) learning to incorporate action chunking, a prominent
characteristic of VLA models. Building upon this framework, we propose CO-RFT,
an algorithm aimed at fine-tuning VLA models using a limited set of
demonstrations (30 to 60 samples). Specifically, we first conduct imitation
learning (IL) with full parameter fine-tuning to initialize both the backbone
and the policy. Subsequently, we implement offline RL with action chunking to
optimize the pretrained policy. Our empirical results in real-world
environments demonstrate that CO-RFT outperforms previous supervised methods,
achieving a 57% improvement in success rate and a 22.3% reduction in cycle
time. Moreover, our method exhibits robust positional generalization
capabilities, attaining a success rate of 44.3% in previously unseen positions.
Ссылки и действия
Дополнительные ресурсы: