Reinforced Language Models for Sequential Decision Making
2508.10839v1
cs.CL, cs.AI, cs.LG, I.2.7; I.2.8
2025-08-16
Авторы:
Jim Dilkes, Vahid Yazdanpanah, Sebastian Stein
Резюме на русском
#### Контекст
Область исследования, связанная с применением больших языковых моделей (LLMs) в качестве агентов последовательного стратегического принятия решений, является относительно новой, но уже привлекла внимание благодаря возможности эффективного использования LLMs в таких задачах. Однако существуют значительные ограничения: LLMs часто требуют огромных ресурсов для выполнения хорошо, что делает их менее практичными в реальных сценариях. Большинство методов пост-тренировки LLMs, ориентированных на решение этой проблемы, разработаны для задач с одной итерацией и не спроектированы для решения задач с несколькими этапами, где кредитное назначение (credit assignment) для каждой стадии является ключевым. Данная работа адресует эти проблемы, предлагая новый подход для улучшения поведения LLMs в задачах последовательного принятия решений.
#### Метод
Методом решения является Multi-Step Group-Relative Policy Optimization (MS-GRPO), алгоритм, разработанный для последовательного улучшения поведения LLMs в задачах с несколькими этапами. Этот алгоритм основывается на формальных моделях Text-Mediated Stochastic Game (TSMG) и Language-Agent Policy (LAP), которые позволяют ему аккуратно назначать кредит за каждый шаг в последовательном решении. Наша модификация включает в себя поиск стратегии оптимальной оценки того, какой шаг в задаче с несколькими шагами вносит больший вклад в окончательный результат. Для этого мы внедрили абсолютно-преимущественную стратегию взвешивания, которая учитывает весь эпизод в качестве размера присуждаемого кредита. Эта стратегия улучшает темп обучения и позволяет лучше справляться с нетривиальными задачами.
#### Результаты
Мы проверили наш подход на двух задачах: Snake и Frozen Lake. Для экспериментов использовались две модели языковых моделей разных размеров: 3 миллиардов параметров и 72 миллиардов параметров. Улучшенная модель 3 миллиардов параметров, полученная с помощью MS-GRPO, показала значительное улучшение в производительности, превосходя базовую модель 72 миллиардов параметров на 50% в задаче Frozen Lake. Эти результаты показывают, что целевая пост-тренировка может быть эффективным способом улучшения поведения LLMs в задачах последовательного принятия решений, даже при малом размере модели.
#### Значимость
Методы, представленные в нашей работе, могут привести к значительным преимуществам в области искусственного интеллекта, особенно в тех случаях, когда необходимо использовать упрощенные модели с меньшим размером. Это может привести к экономии ресурсов и увеличению эффективности в сценариях, где требуется быстрое решение. Кроме того, наши результаты могут открыть пути для дальнейших исследований в области по
Abstract
Large Language Models (LLMs) show potential as sequential decision-making
agents, but their application is often limited due to a reliance on large,
computationally expensive models. This creates a need to improve smaller
models, yet existing post-training methods are designed for single-turn
interactions and cannot handle credit assignment in multi-step agentic tasks.
To address this, we introduce Multi-Step Group-Relative Policy Optimization
(MS-GRPO), a new algorithm for post-training LLM agents, grounded in formal
Text-Mediated Stochastic Game (TSMG) and Language-Agent Policy (LAP)
frameworks. For credit assignment, MS-GRPO attributes the entire cumulative
episode reward to each individual episode step. We supplement this algorithm
with a novel absolute-advantage-weighted episode sampling strategy that we show
improves training performance. We evaluate our approach by post-training a
3-billion parameter model on Snake and Frozen Lake. Our experiments demonstrate
that the method is effective in improving decision-making performance: our
post-trained 3B parameter model outperforms a 72B parameter baseline by 50% on
the Frozen Lake task. This work demonstrates that targeted post-training is a
practical and efficient alternative to relying on model scale for creating
sequential decision-making agents using LLMs.