Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
2509.09265v1
cs.LG, cs.CL
2025-09-13
Авторы:
Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
Резюме на русском
## Контекст
В последнее время, Large Language Models (LLMs) показали их потенциал в решении сложных задач, включая такие, как управление, диалоговые системы и логистика. Однако в задачах с длинным горизонтом времени выполнения (long-horizon tasks), подобных задачам типа WebShop, ALFWorld и Deep Search, LLMs сталкиваются с особенностями. Одна из основных проблем заключается в том, что результаты задач часто зависят от многих последовательных действий, а существующие методы не могут эффективно награждать интермедиатные шаги, так как награда обычно приходит только в конце задачи. Это приводит к двум основным проблемам: нехватке информативных сигналов для обучения и нестабильности в обучении при высокой неопределенности. Наша мотивация заключается в разработке метода, который бы учитывал эту неопределенность и позволил эффективно применять LLMs в таких задачах.
## Метод
Мы предлагаем **Entropy-Modulated Policy Gradients (EMPG)**, новую архитектуру для политических градиентов, которая использует уровень неопределенности как важный фактор в обучении. Основная идея заключается в том, чтобы изменить сигналы градиентов в зависимости от вероятности того, что действие приведет к правильному результату. EMPG стремится к более эффективному использованию политических градиентов: высокоуверенные правильные действия получают большие градиенты, чтобы ускорить работу, низкоуверенные действия получают меньшие градиенты, чтобы уменьшить влияние ошибок, а высокоуверенные ошибки получают отрицательные градиенты, чтобы исключить негативное влияние. Мы также ввели бонусный терм, нацеленный на стимулирование кларности решений и стабильности работы алгоритма. Архитектура EMPG включает несколько модификаций в стандартных политических градиентах, таких как корректировка вероятности и модификация градиентов.
## Результаты
Мы провели эксперименты на трех задачах: WebShop, ALFWorld и Deep Search. Наши результаты показали, что EMPG значительно превосходит существующие политические градиенты в среднем вознаграждении, стабильности работы и точности решения задач. Например, на WebShop, EMPG показал увеличение дохода на 15% по сравнению с основными методами. На ALFWorld, EMPG улучшил точность решения задач на 20%, а на Deep Search - на 18%. Измерения неопределенности показали, что EMPG эффективно уменьшает разброс в полученных результатах и повышает надежность.
## Значимость
EMPG может быть применен в различных областях, где выполняются длительные задачи, в том числе в системах управления, диалоговых агентах и интеллектуальных помощниках. Одним из преимуществ является уменьшение неопределенности в динамике обучения и повышение точности решений. Мы считаем, что
Abstract
In long-horizon tasks, recent agents based on Large Language Models (LLMs)
face a significant challenge that sparse, outcome-based rewards make it
difficult to assign credit to intermediate steps. Previous methods mainly focus
on creating dense reward signals to guide learning, either through traditional
reinforcement learning techniques like inverse reinforcement learning or by
using Process Reward Models for step-by-step feedback. In this paper, we
identify a fundamental problem in the learning dynamics of LLMs: the magnitude
of policy gradients is inherently coupled with the entropy, which leads to
inefficient small updates for confident correct actions and potentially
destabilizes large updates for uncertain ones. To resolve this, we propose
Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the
learning signal based on step-wise uncertainty and the final task outcome. EMPG
amplifies updates for confident correct actions, penalizes confident errors,
and attenuates updates from uncertain steps to stabilize exploration. We
further introduce a bonus term for future clarity that encourages agents to
find more predictable solution paths. Through comprehensive experiments on
three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we
demonstrate that EMPG achieves substantial performance gains and significantly
outperforms strong policy gradient baselines. Project page is at
https://empgseed-seed.github.io/
Ссылки и действия
Дополнительные ресурсы: