Mildly Conservative Regularized Evaluation for Offline Reinforcement Learning

2508.05960v1 cs.LG, cs.AI 2025-08-12
Авторы:

Haohui Chen, Zhiyong Chen

Резюме на русском

## Контекст Offline reinforcement learning (RL) является ключевым подходом в обучении агентов с помощью статических наборов данных, при этом без дополнительного взаимодействия с окружением. Однако, существуют значительные вызовы, связанные с расхождением между распределением изучаемой и используемой политик. Это расхождение приводит к выходу за рамки распределения (out-of-distribution, OOD) и к накоплению ошибок в оценке, что в свою очередь может привести к нежелательным поведениям и неэффективности. Таким образом, важно создать методы, которые будут сбалансироваными в отношении консерватизма и эффективности. ## Метод Мы предлагаем фреймворм, названный mildly conservative regularized evaluation (MCRE), который использует темпоральные разности (TD) в качестве основы, при этом добавляя бихевиор-клонинг из статического набора данных в ядро рекларджа. Этот подход позволяет контролировать консерватизм, исключая жесткие ограничения, но при этом позволяя агенту использовать более эффективные стратегии. Выделенная архитектура алгоритма MCRQ включает в себя интеграцию MCRE с актор-критическим подходом, который допускает использование офф-полици, что дает гибкость в условиях генерации данных. ## Результаты Мы провели эксперименты на нескольких престижных бенчмарк-датасетах для оффлайн RL, включая D4RL и Atari. Результаты показали, что MCRQ превосходит существующие методы, включая conservative Q-learning (CQL) и IQL, по ключевым метрикам качества и стабильности. Дополнительно, мы продемонстрировали, что наш подход значительно снижает ошибки в оценке и выходы за пределы распределения, что способствует устойчивому и эффективному обучению. ## Значимость Предлагаемый подход может быть применен в различных областях, где требуется эффективное обучение с помощью статических данных, включая искусственный интеллект, моделирование систем, а также научные и промышленные приложения. Главное преимущество заключается в его балансе между консерватизмом и эффективностью, что позволяет получить более стабильные и высококачественные результаты. Будущие работы будут направлены на улучшение методов контроля консерватизма и расширение применений MCRQ в более сложных и реальных средах. ## Выводы Мы представили новый подход в области оффлайн RL, который удачно сбалансировал консерватизм и эффективность. Эксперименты показали, что наш метод превосходит существующие решения на текущих датасетах. Мы доказали, что сочетание темпоральных данных с бихевиор-клонингом может значительно улучшить точность и стабильность обучения. Открытые вопросы включают расширение MCRQ для динамических систем и дальнейшее экспер

Abstract

Offline reinforcement learning (RL) seeks to learn optimal policies from static datasets without further environment interaction. A key challenge is the distribution shift between the learned and behavior policies, leading to out-of-distribution (OOD) actions and overestimation. To prevent gross overestimation, the value function must remain conservative; however, excessive conservatism may hinder performance improvement. To address this, we propose the mildly conservative regularized evaluation (MCRE) framework, which balances conservatism and performance by combining temporal difference (TD) error with a behavior cloning term in the Bellman backup. Building on this, we develop the mildly conservative regularized Q-learning (MCRQ) algorithm, which integrates MCRE into an off-policy actor-critic framework. Experiments show that MCRQ outperforms strong baselines and state-of-the-art offline RL algorithms on benchmark datasets.

Ссылки и действия