CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

2508.02219v1 cs.RO, cs.LG 2025-08-09

Авторы:

Dongchi Huang, Zhirui Fang, Tianle Zhang, Yihang Li, Lin Zhao, Chunhe Xia

Резюме на русском

#### Контекст VLA (Vision-Language-Action) модели широко применяются в развитии универсальных политик для реального мира, включая робототехнический контроль. Однако их конечные цели, такие как улучшение общей универсальности и выполнение задач в условиях неопределенности, требуют дополнительного улучшения. Несмотря на то, что находятся в интересующей области, техники тренировки VLA моделей с помощью Reinforcement Learning (RL) сталкиваются с проблемами, такими как неэффективность при обучении, несовместимость с chunked action и нестабильность тренировочного процесса. Эти проблемы подчеркивают необходимость разработки эффективных методов, позволяющих улучшить полученные результаты VLA моделей. #### Метод Мы предлагаем Chunked RL — новую методологию для оптимизации VLA моделей, включая детальную интеграцию chunked action в темporal difference (TD) learning. Данный подход позволяет обеспечить более эффективное участие в процессе обучения, сохранив логику задач с VLA моделями. Мы также предлагаем CO-RFT — новую алгоритмическую реализацию для оптимизации VLA моделей с помощью ограниченных наборов примеров демонстрационных данных (30-60 примеров). Метод CO-RFT начинает с имитационного обучения (IL) для инициализации модели в целом и политики в частности, а затем применяет offline RL с chunked action для дополнительной оптимизации. Этот подход позволяет достичь высокой эффективности, увеличивая успешность и уменьшая цикличность задач. #### Результаты Наши результаты в реальных средах показали, что CO-RFT значительно превосходит предыдущие супервизорные методы, повышая успешность задач на 57% и уменьшая цикличность на 22.3%. Кроме того, CO-RFT доказал способность генерализоваться в новых позициях, получив 44.3% успешных результатов в неизвестных условиях. Эти результаты подтверждают мощь Chunked RL и CO-RFT в улучшении VLA моделей, демонстрируя их универсальность и эффективность в реальных условиях. #### Значимость Метод CO-RFT имеет значительное применение в предметных областях, таких как робототехническая тренировка, управление производственными процессами, искусственный интеллект в реальном мире. Он предоставляет несколько преимуществ, включая улучшенную эффективность обучения, лучшую общую универсальность и высокую ценность в условиях неопределенности. Наш подход также может иметь потенциал для расширения точности и эффективности в других RL-based моделях, позволяя ими повысить производительность в сложных реальных задачах. #### Выводы Мы достигли важных достижений в оптимизации VLA моделей, используя Chunked RL и CO-RFT. Эти открытия позволяют улучшить целостность и эффективность VLA моделей в реаль

Abstract

Vision-Language-Action (VLA) models demonstrate significant potential for developing generalized policies in real-world robotic control. This progress inspires researchers to explore fine-tuning these models with Reinforcement Learning (RL). However, fine-tuning VLA models with RL still faces challenges related to sample efficiency, compatibility with action chunking, and training stability. To address these challenges, we explore the fine-tuning of VLA models through offline reinforcement learning incorporating action chunking. In this work, we propose Chunked RL, a novel reinforcement learning framework specifically designed for VLA models. Within this framework, we extend temporal difference (TD) learning to incorporate action chunking, a prominent characteristic of VLA models. Building upon this framework, we propose CO-RFT, an algorithm aimed at fine-tuning VLA models using a limited set of demonstrations (30 to 60 samples). Specifically, we first conduct imitation learning (IL) with full parameter fine-tuning to initialize both the backbone and the policy. Subsequently, we implement offline RL with action chunking to optimize the pretrained policy. Our empirical results in real-world environments demonstrate that CO-RFT outperforms previous supervised methods, achieving a 57% improvement in success rate and a 22.3% reduction in cycle time. Moreover, our method exhibits robust positional generalization capabilities, attaining a success rate of 44.3% in previously unseen positions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-embodied Co-design for Dexterous Hands

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guide...

Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep...

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment...

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Навигация