GCHR : Goal-Conditioned Hindsight Regularization for Sample-Efficient Reinforcement Learning
2508.06108v1
cs.LG, cs.AI
2025-08-12
Авторы:
Xing Lei, Wenyan Yang, Kaiqiang Ke, Shentao Yang, Xuetao Zhang, Joni Pajarinen, Donglin Wang
Резюме на русском
## Контекст
Goal-conditioned reinforcement learning (GCRL) с отсутствующими подсказками о реWARD-ах остается одной из самых сложных задач в области машинного обучения. Одним из основных подходов является **hindsight experience replay (HER)**, который переизбивает траектории сбоя с использованием достигнутых целей. Несмотря на прогрессы, этот подход не полностью использует доступные данные в off-policy GCRL, что приводит к ограниченной эффективности обучения. Наша работа адресует эту проблему, предлагая **Hindsight Goal-conditioned Regularization (HGR)**, которая позволяет эффективно использовать данные в целях оптимизации.
## Метод
Мы предлагаем **Hindsight Goal-conditioned Regularization (HGR)**, которая состоит из двух компонент: **hindsight action regularization (HAR)** и **hindsight self-imitation regularization (HSR)**. HAR учитывает цели на пути, а HSR использует траектории, достигнутые позади, для создания регуляризаций действий. При их комбинации, HGR может максимизировать эффективность обучения в off-policy GCRL-системах. Это решение может быть интегрировано с любыми off-policy RL-алгоритмами.
## Результаты
Мы провели эксперименты на сетевых задачах с целями и манипуляциями. Наши результаты показали, что HGR достигает значительно большей эффективности обучения и лучшего показателя производительности по сравнению с HER и другими методами современных селф-имитиашн регуляризаций. Например, на задачах с целями мы получили существенные улучшения в обучении, даже при существенном сокращении количества изучаемых данных.
## Значимость
Предложенный подход может быть применен в различных задачах с целями в Голд (с целями в пространстве состояний, горизонтах или целях в задачах с целями). Он может приводить к значительным улучшениям в обучении в системах, например, в robotics, сенсорных системах, и других приложениях, где эффективное обучение и моделирование целей являются ключевыми требованиями. Мы считаем, что наш метод способен формировать новый стандарт для GCRL.
## Выводы
HGR достигает существенных улучшений в обучении GCRL с отсутствующими подсказками о реWARD-ах, увеличивая эффективность обучения. Мы планируем продолжить работу над улучшением теоретических основ HGR, а также применить его к различным приложениям с целями, таким как robotics и транспортные системы.
Abstract
Goal-conditioned reinforcement learning (GCRL) with sparse rewards remains a
fundamental challenge in reinforcement learning. While hindsight experience
replay (HER) has shown promise by relabeling collected trajectories with
achieved goals, we argue that trajectory relabeling alone does not fully
exploit the available experiences in off-policy GCRL methods, resulting in
limited sample efficiency. In this paper, we propose Hindsight Goal-conditioned
Regularization (HGR), a technique that generates action regularization priors
based on hindsight goals. When combined with hindsight self-imitation
regularization (HSR), our approach enables off-policy RL algorithms to maximize
experience utilization. Compared to existing GCRL methods that employ HER and
self-imitation techniques, our hindsight regularizations achieve substantially
more efficient sample reuse and the best performances, which we empirically
demonstrate on a suite of navigation and manipulation tasks.
Ссылки и действия
Дополнительные ресурсы: