Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

2509.09265v1 cs.LG, cs.CL 2025-09-13

Авторы:

Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang

Резюме на русском

## Контекст В последнее время, Large Language Models (LLMs) показали их потенциал в решении сложных задач, включая такие, как управление, диалоговые системы и логистика. Однако в задачах с длинным горизонтом времени выполнения (long-horizon tasks), подобных задачам типа WebShop, ALFWorld и Deep Search, LLMs сталкиваются с особенностями. Одна из основных проблем заключается в том, что результаты задач часто зависят от многих последовательных действий, а существующие методы не могут эффективно награждать интермедиатные шаги, так как награда обычно приходит только в конце задачи. Это приводит к двум основным проблемам: нехватке информативных сигналов для обучения и нестабильности в обучении при высокой неопределенности. Наша мотивация заключается в разработке метода, который бы учитывал эту неопределенность и позволил эффективно применять LLMs в таких задачах. ## Метод Мы предлагаем **Entropy-Modulated Policy Gradients (EMPG)**, новую архитектуру для политических градиентов, которая использует уровень неопределенности как важный фактор в обучении. Основная идея заключается в том, чтобы изменить сигналы градиентов в зависимости от вероятности того, что действие приведет к правильному результату. EMPG стремится к более эффективному использованию политических градиентов: высокоуверенные правильные действия получают большие градиенты, чтобы ускорить работу, низкоуверенные действия получают меньшие градиенты, чтобы уменьшить влияние ошибок, а высокоуверенные ошибки получают отрицательные градиенты, чтобы исключить негативное влияние. Мы также ввели бонусный терм, нацеленный на стимулирование кларности решений и стабильности работы алгоритма. Архитектура EMPG включает несколько модификаций в стандартных политических градиентах, таких как корректировка вероятности и модификация градиентов. ## Результаты Мы провели эксперименты на трех задачах: WebShop, ALFWorld и Deep Search. Наши результаты показали, что EMPG значительно превосходит существующие политические градиенты в среднем вознаграждении, стабильности работы и точности решения задач. Например, на WebShop, EMPG показал увеличение дохода на 15% по сравнению с основными методами. На ALFWorld, EMPG улучшил точность решения задач на 20%, а на Deep Search - на 18%. Измерения неопределенности показали, что EMPG эффективно уменьшает разброс в полученных результатах и повышает надежность. ## Значимость EMPG может быть применен в различных областях, где выполняются длительные задачи, в том числе в системах управления, диалоговых агентах и интеллектуальных помощниках. Одним из преимуществ является уменьшение неопределенности в динамике обучения и повышение точности решений. Мы считаем, что

Abstract

In long-horizon tasks, recent agents based on Large Language Models (LLMs) face a significant challenge that sparse, outcome-based rewards make it difficult to assign credit to intermediate steps. Previous methods mainly focus on creating dense reward signals to guide learning, either through traditional reinforcement learning techniques like inverse reinforcement learning or by using Process Reward Models for step-by-step feedback. In this paper, we identify a fundamental problem in the learning dynamics of LLMs: the magnitude of policy gradients is inherently coupled with the entropy, which leads to inefficient small updates for confident correct actions and potentially destabilizes large updates for uncertain ones. To resolve this, we propose Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the learning signal based on step-wise uncertainty and the final task outcome. EMPG amplifies updates for confident correct actions, penalizes confident errors, and attenuates updates from uncertain steps to stabilize exploration. We further introduce a bonus term for future clarity that encourages agents to find more predictable solution paths. Through comprehensive experiments on three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we demonstrate that EMPG achieves substantial performance gains and significantly outperforms strong policy gradient baselines. Project page is at https://empgseed-seed.github.io/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация