Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation
2508.06806v1
cs.LG, cs.AI
2025-08-13
Авторы:
Xiao Huang, Xu Liu, Enze Zhang, Tong Yu, Shuai Li
Резюме на русском
#### Контекст
Оффлайн-то-онлайн Reinforcement Learning (O2O RL) — это область исследований, нацеленная на сокращение затрат на онлайн-финетюнинг политик, предварительно обученных оффлайн. Данная тема имеет решающее значение, так как онлайн-интерфейсы часто обладают ограниченной модификацией, что приводит к высоким затратам на экспериментацию. Однако, существующие подходы столкнулись с проблемой несовпадения данных, генерируемых оффлайн-демонстрациями, и реальными данными онлайн-интерфейса. Это ограничивает качество адаптации политик. Данная работа предлагает решение этой проблемы, сосредоточившись на улучшении эффективности и точности оффлайн-то-онлайн RL.
#### Метод
Методология, предложенная в данной работе, основывается на использовании **Classifier-Free Diffusion Generation (CFDG)** — метода, который оптимизирует данные для генерации, не требуя дополнительного обучения классификаторов. CFDG применяет **diffusion model** для генерации данных, которые более точно соответствуют онлайн-дистрибуции. Данный подход также включает в себя метод реигрессирования, позволяющий генерировать более адекватные данные, которые более эффективно подходят для онлайн-режима.
#### Результаты
Исследования проводились на б BENCHMARK D4RL, включающем такие задачи, как MuJoCo и AntMaze. Результаты показали, что CFDG улучшил производительность на 15% в среднем по сравнению с другими методами, включая перекрестное переиспользование двух видов данных и стандартные методы диффузии. Эксперименты также продемонстрировали, что CFDG позволяет совершенствовать качество политик, сохраняя их устойчивость в различных сценариях.
#### Значимость
Предложенный подход может быть применен в различных областях, от игр до робототехники, где требуется эффективное применение оффлайн-демонстраций для онлайн-адаптации. CFDG отличается гибкостью и может быть интегрирован с любыми существующими O2O RL-алгоритмами. Это делает его привлекательным для практического применения в реальных системах, где высокая точность и стабильность ключевые факторы.
#### Выводы
В ходе работы был разработан и проверен CFDG, показав его преимущество над традиционными методами генерации данных для O2O RL. Результаты позволяют выделить CFDG как перспективный подход для улучшения эффективности и качества онлайн-адаптации политик. Будущие исследования будут сфокусированы на расширении этого подхода для более широкого класса задач и систем.
Abstract
Offline-to-online Reinforcement Learning (O2O RL) aims to perform online
fine-tuning on an offline pre-trained policy to minimize costly online
interactions. Existing work used offline datasets to generate data that conform
to the online data distribution for data augmentation. However, generated data
still exhibits a gap with the online data, limiting overall performance. To
address this, we propose a new data augmentation approach, Classifier-Free
Diffusion Generation (CFDG). Without introducing additional classifier training
overhead, CFDG leverages classifier-free guidance diffusion to significantly
enhance the generation quality of offline and online data with different
distributions. Additionally, it employs a reweighting method to enable more
generated data to align with the online data, enhancing performance while
maintaining the agent's stability. Experimental results show that CFDG
outperforms replaying the two data types or using a standard diffusion model to
generate new data. Our method is versatile and can be integrated with existing
offline-to-online RL algorithms. By implementing CFDG to popular methods IQL,
PEX and APL, we achieve a notable 15% average improvement in empirical
performance on the D4RL benchmark such as MuJoCo and AntMaze.
Ссылки и действия
Дополнительные ресурсы: