Reinforced Language Models for Sequential Decision Making

2508.10839v1 cs.CL, cs.AI, cs.LG, I.2.7; I.2.8 2025-08-16
Авторы:

Jim Dilkes, Vahid Yazdanpanah, Sebastian Stein

Резюме на русском

#### Контекст Область исследования, связанная с применением больших языковых моделей (LLMs) в качестве агентов последовательного стратегического принятия решений, является относительно новой, но уже привлекла внимание благодаря возможности эффективного использования LLMs в таких задачах. Однако существуют значительные ограничения: LLMs часто требуют огромных ресурсов для выполнения хорошо, что делает их менее практичными в реальных сценариях. Большинство методов пост-тренировки LLMs, ориентированных на решение этой проблемы, разработаны для задач с одной итерацией и не спроектированы для решения задач с несколькими этапами, где кредитное назначение (credit assignment) для каждой стадии является ключевым. Данная работа адресует эти проблемы, предлагая новый подход для улучшения поведения LLMs в задачах последовательного принятия решений. #### Метод Методом решения является Multi-Step Group-Relative Policy Optimization (MS-GRPO), алгоритм, разработанный для последовательного улучшения поведения LLMs в задачах с несколькими этапами. Этот алгоритм основывается на формальных моделях Text-Mediated Stochastic Game (TSMG) и Language-Agent Policy (LAP), которые позволяют ему аккуратно назначать кредит за каждый шаг в последовательном решении. Наша модификация включает в себя поиск стратегии оптимальной оценки того, какой шаг в задаче с несколькими шагами вносит больший вклад в окончательный результат. Для этого мы внедрили абсолютно-преимущественную стратегию взвешивания, которая учитывает весь эпизод в качестве размера присуждаемого кредита. Эта стратегия улучшает темп обучения и позволяет лучше справляться с нетривиальными задачами. #### Результаты Мы проверили наш подход на двух задачах: Snake и Frozen Lake. Для экспериментов использовались две модели языковых моделей разных размеров: 3 миллиардов параметров и 72 миллиардов параметров. Улучшенная модель 3 миллиардов параметров, полученная с помощью MS-GRPO, показала значительное улучшение в производительности, превосходя базовую модель 72 миллиардов параметров на 50% в задаче Frozen Lake. Эти результаты показывают, что целевая пост-тренировка может быть эффективным способом улучшения поведения LLMs в задачах последовательного принятия решений, даже при малом размере модели. #### Значимость Методы, представленные в нашей работе, могут привести к значительным преимуществам в области искусственного интеллекта, особенно в тех случаях, когда необходимо использовать упрощенные модели с меньшим размером. Это может привести к экономии ресурсов и увеличению эффективности в сценариях, где требуется быстрое решение. Кроме того, наши результаты могут открыть пути для дальнейших исследований в области по

Abstract

Large Language Models (LLMs) show potential as sequential decision-making agents, but their application is often limited due to a reliance on large, computationally expensive models. This creates a need to improve smaller models, yet existing post-training methods are designed for single-turn interactions and cannot handle credit assignment in multi-step agentic tasks. To address this, we introduce Multi-Step Group-Relative Policy Optimization (MS-GRPO), a new algorithm for post-training LLM agents, grounded in formal Text-Mediated Stochastic Game (TSMG) and Language-Agent Policy (LAP) frameworks. For credit assignment, MS-GRPO attributes the entire cumulative episode reward to each individual episode step. We supplement this algorithm with a novel absolute-advantage-weighted episode sampling strategy that we show improves training performance. We evaluate our approach by post-training a 3-billion parameter model on Snake and Frozen Lake. Our experiments demonstrate that the method is effective in improving decision-making performance: our post-trained 3B parameter model outperforms a 72B parameter baseline by 50% on the Frozen Lake task. This work demonstrates that targeted post-training is a practical and efficient alternative to relying on model scale for creating sequential decision-making agents using LLMs.

Ссылки и действия