Reparameterization Proximal Policy Optimization
2508.06214v1
cs.LG, cs.AI
2025-08-12
Авторы:
Hai Zhong, Xun Wang, Zhuoran Li, Longbo Huang
Резюме на русском
## Контекст
Оптимизация политик в обучении распределённых агентов является ключевым заданием в области искусственного интеллекта. Одним из вызовов в этой области является обеспечение высокой эффективности использования примеров (sample efficiency). Традиционные подходы, такие как Proximal Policy Optimization (PPO), работают стабильно, но часто страдают от низкой эффективности обучения. С другой стороны, Reparameterization Policy Gradient (RPG) позволяет эффективно использовать дифференцируемую динамику системы, но нестабильность её обучения ограничивает её применение. Это мотивирует нужду в разработке метода, который объединял бы высокую примесь примеров с устойчивостью обучения.
## Метод
Мы используем модельную стратегию Proximal Policy Optimization (PPO) для устранения нестабильности в RPG. Основной идеей является установление доказательства того, что репараметризационные градиенты могут быть вычислены эффективно с помощью обратного распространения ошибки по времени (backpropagation through time). Этот подход позволяет ждать несколько эпох обучения с одними и теми же примерами, чтобы обеспечить устойчивость. Для дополнительной стабилизации мы внедряем регуляризацию на основе Kullback-Leibler (KL) и интегрируем возможность использовать методы уменьшения вариации градиентов, такие как Trust Region Policy Optimization (TRPO).
## Результаты
Мы проводим эксперименты на широкой сетке локомоционных и манипуляционных задач. Обучение наших агентов показывает высокую эффективность примеров (sample efficiency) и качество поведения в сравнении с конкурирующими методами. Мы проверяем стабильность нашего подхода при использовании различных вариантов регуляризации и сравниваем результаты с другими методами, такими как PPO и TRPO. Эксперименты показывают, что RPO превосходит другие методы в области обучения эффективности и выполнения задач.
## Значимость
Предлагаемый метод может быть применён в различных распределённых задачах машинного обучения, в том числе в симуляционных средах, робототехнике и автоматизированных системах. Он обеспечивает высокую эффективность обучения и может быть интегрирован с другими методами улучшения обучения. Этот подход может привести к значительным улучшениям в области применения роботов, автоматизации и других областях, где моделирование динамики и эффективность обучения играют важную роль.
## Выводы
Мы предлагаем Reparameterization Proximal Policy Optimization (RPO), новый подход к улучшению эффективности и стабильности обучения политик в распределённых средах. Мы показываем, что наш метод стабильно работает и продвигается над конкурирующими методами в обучении. Будущие исследования будут направлены на расширение этого подхода для работы с более сложными задачами и интеграцию с новыми методами обучения.
Abstract
Reparameterization policy gradient (RPG) is promising for improving sample
efficiency by leveraging differentiable dynamics. However, a critical barrier
is its training instability, where high-variance gradients can destabilize the
learning process. To address this, we draw inspiration from Proximal Policy
Optimization (PPO), which uses a surrogate objective to enable stable sample
reuse in the model-free setting. We first establish a connection between this
surrogate objective and RPG, which has been largely unexplored and is
non-trivial. Then, we bridge this gap by demonstrating that the
reparameterization gradient of a PPO-like surrogate objective can be computed
efficiently using backpropagation through time. Based on this key insight, we
propose Reparameterization Proximal Policy Optimization (RPO), a stable and
sample-efficient RPG-based method. RPO enables multiple epochs of stable sample
reuse by optimizing a clipped surrogate objective tailored for RPG, while being
further stabilized by Kullback-Leibler (KL) divergence regularization and
remaining fully compatible with existing variance reduction methods. We
evaluate RPO on a suite of challenging locomotion and manipulation tasks, where
experiments demonstrate that our method achieves superior sample efficiency and
strong performance.
Ссылки и действия
Дополнительные ресурсы: