GCHR : Goal-Conditioned Hindsight Regularization for Sample-Efficient Reinforcement Learning

2508.06108v1 cs.LG, cs.AI 2025-08-12

Авторы:

Xing Lei, Wenyan Yang, Kaiqiang Ke, Shentao Yang, Xuetao Zhang, Joni Pajarinen, Donglin Wang

Резюме на русском

## Контекст Goal-conditioned reinforcement learning (GCRL) с отсутствующими подсказками о реWARD-ах остается одной из самых сложных задач в области машинного обучения. Одним из основных подходов является **hindsight experience replay (HER)**, который переизбивает траектории сбоя с использованием достигнутых целей. Несмотря на прогрессы, этот подход не полностью использует доступные данные в off-policy GCRL, что приводит к ограниченной эффективности обучения. Наша работа адресует эту проблему, предлагая **Hindsight Goal-conditioned Regularization (HGR)**, которая позволяет эффективно использовать данные в целях оптимизации. ## Метод Мы предлагаем **Hindsight Goal-conditioned Regularization (HGR)**, которая состоит из двух компонент: **hindsight action regularization (HAR)** и **hindsight self-imitation regularization (HSR)**. HAR учитывает цели на пути, а HSR использует траектории, достигнутые позади, для создания регуляризаций действий. При их комбинации, HGR может максимизировать эффективность обучения в off-policy GCRL-системах. Это решение может быть интегрировано с любыми off-policy RL-алгоритмами. ## Результаты Мы провели эксперименты на сетевых задачах с целями и манипуляциями. Наши результаты показали, что HGR достигает значительно большей эффективности обучения и лучшего показателя производительности по сравнению с HER и другими методами современных селф-имитиашн регуляризаций. Например, на задачах с целями мы получили существенные улучшения в обучении, даже при существенном сокращении количества изучаемых данных. ## Значимость Предложенный подход может быть применен в различных задачах с целями в Голд (с целями в пространстве состояний, горизонтах или целях в задачах с целями). Он может приводить к значительным улучшениям в обучении в системах, например, в robotics, сенсорных системах, и других приложениях, где эффективное обучение и моделирование целей являются ключевыми требованиями. Мы считаем, что наш метод способен формировать новый стандарт для GCRL. ## Выводы HGR достигает существенных улучшений в обучении GCRL с отсутствующими подсказками о реWARD-ах, увеличивая эффективность обучения. Мы планируем продолжить работу над улучшением теоретических основ HGR, а также применить его к различным приложениям с целями, таким как robotics и транспортные системы.

Abstract

Goal-conditioned reinforcement learning (GCRL) with sparse rewards remains a fundamental challenge in reinforcement learning. While hindsight experience replay (HER) has shown promise by relabeling collected trajectories with achieved goals, we argue that trajectory relabeling alone does not fully exploit the available experiences in off-policy GCRL methods, resulting in limited sample efficiency. In this paper, we propose Hindsight Goal-conditioned Regularization (HGR), a technique that generates action regularization priors based on hindsight goals. When combined with hindsight self-imitation regularization (HSR), our approach enables off-policy RL algorithms to maximize experience utilization. Compared to existing GCRL methods that employ HER and self-imitation techniques, our hindsight regularizations achieve substantially more efficient sample reuse and the best performances, which we empirically demonstrate on a suite of navigation and manipulation tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GCHR : Goal-Conditioned Hindsight Regularization for Sample-Efficient Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация