Symmetric Behavior Regularization via Taylor Expansion of Symmetry

2508.04225v2 cs.LG, cs.AI 2025-08-09
Авторы:

Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области обучения с подкреплением (Reinforcement Learning, RL) одной из ключевых задач является построение эффективных алгоритмов для политик управления. Одним из подходов к решению этой задачи является политика оптимизации с регуляризацией поведения (Behavior Regularization Policy Optimization, BRPO). Традиционные подходы, такие как регуляризация с использованием разности Кульбака-Лейблера (KL), основываются на асимметричных метриках различий между политиками. Однако такие методы имеют определенные ограничения, в том числе невозможность получения аналитической формы регуляризированной политики при использовании симметричных разностей, таких как $f$-разности. Симметричные разности являются более общими и гибкими инструментами для регуляризации, но их применение в BRPO сталкивается с серьезными вычислительными и численными проблемами. Традиционные методы не могут эффективно использовать симметричные разности из-за отсутствия аналитических решений и потенциальных трудностей с численной устойчивостью. Эта проблема мотивирует разработку новых методов, которые могли бы эффективно использовать симметричные разности для регуляризации в BRPO. Таким образом, целью данного исследования является создание нового метода, который позволит преодолеть трудности, связанные с использованием симметричных разностей, и обеспечить эффективную регуляризацию в BRPO. Авторы предлагают использовать ряд Тейлора для $f$-разностей для решения этих проблем, что является новаторским подходом в данной области. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод политики регуляризации, основанный на ряде Тейлора для симметричных разностей. Основная идея заключается в том, чтобы использовать ряд Тейлора для аппроксимации $f$-разностей, что позволяет получить аналитическую форму регуляризированной политики. Авторы доказывают, что при использовании конечного числа членов ряда Тейлора можно получить аналитическое решение для регуляризированной политики, что является ключевым достижением. Для решения проблемы численной устойчивости, авторы предлагают разделить симметричную разность на асимметричную и симметричную составляющие. Затем, они используют ряд Тейлора для аппроксимации симметричной составляющей, что помогает уменьшить численные проблемы. Этот подход позволяет создать первый практически применимый алгоритм BRPO, основанный на симметричных разностях, который называется Symmetric $f$ Actor-Critic (S$f$-AC). Алгоритм S$f$-AC сочетает в себе преимущества симметричных разностей и ряда Тейлора, что позволяет обеспечить высокую эффективность и устойчивость алгоритма. Авторы также представляют математические доказательства эффективности их подхода, что делает его надежным и практичным для применения в реальных задачах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух видах задач: задаче аппроксимации распределения и задаче MuJoCo. На первой задаче, они проверяют качество аппроксимации распределения с помощью их метода. Результаты показывают, что S$f$-AC достигает высокой точности в аппроксимации распределения, что говорит о его эффективности в решении этой задачи. На второй задаче, которая проводится в среде MuJoCo, авторы сравнивают S$f$-AC с другими современными методами BRPO. Результаты показывают, что S$f$-AC демонстрирует конкурентоспособные результаты, превосходя другие методы в некоторых случаях. Это подтверждает практическую значимость их метода и его возможность быть эффективным в реальных задачах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод S$f$-AC имеет широкое применение в области обучения с подкреплением, особенно в задачах, где важна точная регуляризация поведения. Он может быть использован в различных приложениях, таких как робототехника, автономные системы и игры. Благодаря его эффективности и устойчивости, S$f$-AC может стать важной составляющей в разработке интеллектуальных систем, которые могут адаптироваться к сложным средам. Кроме того, метод может быть использован для улучшения существующих алгоритмов обучения с подкреплением, особенно в тех случаях, где требуется более тонкая регуляризация поведения. Это может привести к значительным улучшениям в производительности и качестве политик управления. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной статье представлен новый метод Symmetric $f$ Actor-Critic (S$f$-AC), который использует ряд Тейлора для симметричных разностей в BRPO. Этот метод предлагает эффективное решение проблем, связанных с использованием симметричных разностей, и демонстрирует высокую эффефиктивность в экспериментах. В будущем, авторы планируют расширить их метод для решения более сложных задач, включая задачи с высокой размерностью и нелинейными системами. Также, они планируют исследовать возможности применения их метода в задачах с неопределенными или частично известными данными. Эти направления исследований могут привести к дальнейшему улучшению методов обучения с подкреплением и их применения в реальных задачах.

Abstract

This paper introduces symmetric divergences to behavior regularization policy optimization (BRPO) to establish a novel offline RL framework. Existing methods focus on asymmetric divergences such as KL to obtain analytic regularized policies and a practical minimization objective. We show that symmetric divergences do not permit an analytic policy as regularization and can incur numerical issues as loss. We tackle these challenges by the Taylor series of $f$-divergence. Specifically, we prove that an analytic policy can be obtained with a finite series. For loss, we observe that symmetric divergences can be decomposed into an asymmetry and a conditional symmetry term, Taylor-expanding the latter alleviates numerical issues. Summing together, we propose Symmetric $f$ Actor-Critic (S$f$-AC), the first practical BRPO algorithm with symmetric divergences. Experimental results on distribution approximation and MuJoCo verify that S$f$-AC performs competitively.

Ссылки и действия