Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation

2508.06806v1 cs.LG, cs.AI 2025-08-13

Авторы:

Xiao Huang, Xu Liu, Enze Zhang, Tong Yu, Shuai Li

Резюме на русском

#### Контекст Оффлайн-то-онлайн Reinforcement Learning (O2O RL) — это область исследований, нацеленная на сокращение затрат на онлайн-финетюнинг политик, предварительно обученных оффлайн. Данная тема имеет решающее значение, так как онлайн-интерфейсы часто обладают ограниченной модификацией, что приводит к высоким затратам на экспериментацию. Однако, существующие подходы столкнулись с проблемой несовпадения данных, генерируемых оффлайн-демонстрациями, и реальными данными онлайн-интерфейса. Это ограничивает качество адаптации политик. Данная работа предлагает решение этой проблемы, сосредоточившись на улучшении эффективности и точности оффлайн-то-онлайн RL. #### Метод Методология, предложенная в данной работе, основывается на использовании **Classifier-Free Diffusion Generation (CFDG)** — метода, который оптимизирует данные для генерации, не требуя дополнительного обучения классификаторов. CFDG применяет **diffusion model** для генерации данных, которые более точно соответствуют онлайн-дистрибуции. Данный подход также включает в себя метод реигрессирования, позволяющий генерировать более адекватные данные, которые более эффективно подходят для онлайн-режима. #### Результаты Исследования проводились на б BENCHMARK D4RL, включающем такие задачи, как MuJoCo и AntMaze. Результаты показали, что CFDG улучшил производительность на 15% в среднем по сравнению с другими методами, включая перекрестное переиспользование двух видов данных и стандартные методы диффузии. Эксперименты также продемонстрировали, что CFDG позволяет совершенствовать качество политик, сохраняя их устойчивость в различных сценариях. #### Значимость Предложенный подход может быть применен в различных областях, от игр до робототехники, где требуется эффективное применение оффлайн-демонстраций для онлайн-адаптации. CFDG отличается гибкостью и может быть интегрирован с любыми существующими O2O RL-алгоритмами. Это делает его привлекательным для практического применения в реальных системах, где высокая точность и стабильность ключевые факторы. #### Выводы В ходе работы был разработан и проверен CFDG, показав его преимущество над традиционными методами генерации данных для O2O RL. Результаты позволяют выделить CFDG как перспективный подход для улучшения эффективности и качества онлайн-адаптации политик. Будущие исследования будут сфокусированы на расширении этого подхода для более широкого класса задач и систем.

Abstract

Offline-to-online Reinforcement Learning (O2O RL) aims to perform online fine-tuning on an offline pre-trained policy to minimize costly online interactions. Existing work used offline datasets to generate data that conform to the online data distribution for data augmentation. However, generated data still exhibits a gap with the online data, limiting overall performance. To address this, we propose a new data augmentation approach, Classifier-Free Diffusion Generation (CFDG). Without introducing additional classifier training overhead, CFDG leverages classifier-free guidance diffusion to significantly enhance the generation quality of offline and online data with different distributions. Additionally, it employs a reweighting method to enable more generated data to align with the online data, enhancing performance while maintaining the agent's stability. Experimental results show that CFDG outperforms replaying the two data types or using a standard diffusion model to generate new data. Our method is versatile and can be integrated with existing offline-to-online RL algorithms. By implementing CFDG to popular methods IQL, PEX and APL, we achieve a notable 15% average improvement in empirical performance on the D4RL benchmark such as MuJoCo and AntMaze.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация