EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

2509.22576v1 cs.LG, cs.CL 2025-09-30
Авторы:

Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris

Резюме на русском

## Контекст Управляемые языковыми моделями агенты (LLM agents) становятся все более важными в области искусственного интеллекта, особенно при работе в сложных, многократно взаимодействующих средах. Однако обучение таких агентов в средах с многоэтапными задачами и спарсидными наградами оказалось очень вызовом. Эта проблема возникает из-за того, что придерживаться высоко энтропийных стратегий становится сложно в результате эксплоатейшена и беспорядка в данных. Однако слишком низкая энтропия приводит к упущению новых возможностей. Лежит основой проблемы недостаток регуляризации, которая могла бы помочь сохранять баланс между эксплорэйшеном и эксплойтейшеном. Это ставит дополнительные требования к методологиям RL, которые должны быть адаптированы к таким специфичным условиям. ## Метод Мы предлагаем **Entropy-regularized Policy Optimization (EPO)**, новая архитектура для обучения LLM-агентов в таких условиях. Работа EPO основывается на трех ключевых механизмах: 1. **Энтропийная регуляризация в многократных взаимодействиях**. Это помогает сохранить баланс между эксплорэйшеном и эксплойтейшеном в режиме многократных взаимодействий. 2. **Сглаживание энтропии**. Это регуляризатор ограничивает энтропию политики в пределах исторических средних значений, чтобы избегать абRUPTных игр. 3. **Адаптивное взвешивание фаз**. Это помогает гармонизировать эксплорэйшен и эксплойтейшен в разных этапах обучения. Разработанная методология используется в сочетании с настройкой сетей и адаптивным наблюдением, чтобы обеспечить стабильность и эффективность. ## Результаты Мы провели эксперименты на двух основных наборах данных: **ScienceWorld** и **ALFWorld**, где наблюдались многоэтапные задачи с малой наградой. В результате, EPO показал до 152% улучшения конверсии на ScienceWorld и 19.8% на ALFWorld. Эти результаты показывают, что EPO не только выигрывает над традиционными методами, но и доказывает свою эффективность в таких сложных средах. Наша архитектура успешно сохраняет энтропию, обеспечивая баланс между ранним закреплением и поздней коллапсом политики. ## Значимость Результаты EPO имеют широкие применения в области обучения языковым моделям в многократных взаимодействиях. В частности, EPO может применяться в следующих сферах: - **Контроль качества в играх и интерактивных системах.** - **Управление роботами и социальными системами.** - **Прототипирование новых технологий для обучения агентов с многоэтапными задачами.** EPO не только улучшает существующие методы RL, но и открывает новую площадку

Abstract

Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.

Ссылки и действия