EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
2509.22576v1
cs.LG, cs.CL
2025-09-30
Авторы:
Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
Резюме на русском
## Контекст
Управляемые языковыми моделями агенты (LLM agents) становятся все более важными в области искусственного интеллекта, особенно при работе в сложных, многократно взаимодействующих средах. Однако обучение таких агентов в средах с многоэтапными задачами и спарсидными наградами оказалось очень вызовом. Эта проблема возникает из-за того, что придерживаться высоко энтропийных стратегий становится сложно в результате эксплоатейшена и беспорядка в данных. Однако слишком низкая энтропия приводит к упущению новых возможностей. Лежит основой проблемы недостаток регуляризации, которая могла бы помочь сохранять баланс между эксплорэйшеном и эксплойтейшеном. Это ставит дополнительные требования к методологиям RL, которые должны быть адаптированы к таким специфичным условиям.
## Метод
Мы предлагаем **Entropy-regularized Policy Optimization (EPO)**, новая архитектура для обучения LLM-агентов в таких условиях. Работа EPO основывается на трех ключевых механизмах:
1. **Энтропийная регуляризация в многократных взаимодействиях**. Это помогает сохранить баланс между эксплорэйшеном и эксплойтейшеном в режиме многократных взаимодействий.
2. **Сглаживание энтропии**. Это регуляризатор ограничивает энтропию политики в пределах исторических средних значений, чтобы избегать абRUPTных игр.
3. **Адаптивное взвешивание фаз**. Это помогает гармонизировать эксплорэйшен и эксплойтейшен в разных этапах обучения.
Разработанная методология используется в сочетании с настройкой сетей и адаптивным наблюдением, чтобы обеспечить стабильность и эффективность.
## Результаты
Мы провели эксперименты на двух основных наборах данных: **ScienceWorld** и **ALFWorld**, где наблюдались многоэтапные задачи с малой наградой. В результате, EPO показал до 152% улучшения конверсии на ScienceWorld и 19.8% на ALFWorld. Эти результаты показывают, что EPO не только выигрывает над традиционными методами, но и доказывает свою эффективность в таких сложных средах. Наша архитектура успешно сохраняет энтропию, обеспечивая баланс между ранним закреплением и поздней коллапсом политики.
## Значимость
Результаты EPO имеют широкие применения в области обучения языковым моделям в многократных взаимодействиях. В частности, EPO может применяться в следующих сферах:
- **Контроль качества в играх и интерактивных системах.**
- **Управление роботами и социальными системами.**
- **Прототипирование новых технологий для обучения агентов с многоэтапными задачами.**
EPO не только улучшает существующие методы RL, но и открывает новую площадку
Abstract
Training LLM agents in multi-turn environments with sparse rewards, where
completing a single task requires 30+ turns of interaction within an episode,
presents a fundamental challenge for reinforcement learning. We identify a
critical failure mode unique to this setting: the exploration-exploitation
cascade failure. This cascade begins with early-stage policy premature
convergence, where sparse feedback causes agents to commit to flawed,
low-entropy strategies. Subsequently, agents enter late-stage policy collapse,
where conventional entropy regularization becomes counterproductive, promoting
chaotic exploration that destabilizes training. We propose Entropy-regularized
Policy Optimization (EPO), a general framework that breaks this failure cycle
through three synergistic mechanisms: (1) adopting entropy regularization in
multi-turn settings to enhance exploration, (2) an entropy smoothing
regularizer that bounds policy entropy within historical averages to prevent
abrupt fluctuations, and (3) adaptive phase-based weighting that balances
exploration and exploitation across training. Our analysis justifies that EPO
guarantees monotonically decreasing entropy variance while maintaining
convergence. EPO achieves up to 152% performance improvement on ScienceWorld
and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn
sparse-reward settings require fundamentally different entropy control than
traditional RL, with broad implications for LLM agent training.
Ссылки и действия
Дополнительные ресурсы: