📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Jim Dilkes, Vahid Yazdanpanah, Sebastian Stein
#### Контекст
Область исследования, связанная с применением больших языковых моделей (LLMs) в качестве агентов последовательного стратегического принятия решений, является относительно новой, но уже привлекла внимание благодаря возможности эффективного использования LLMs в таких задачах. Однако существуют значительные ограничения: LLMs часто требуют огромных ресурсов для выполнения хорошо, что делает их менее практичными в реальных сценариях. Большинство методов пост-тренировки LLMs, ориентированных на решение этой проблемы, разработаны для задач с одной итерацией и не спроектированы для решения задач с несколькими этапами, где кредитное назначение (credit assignment) для каждой стадии является ключевым. Данная работа адресует эти проблемы, предлагая новый подход для улучшения поведения LLMs в задачах последовательного принятия решений.
#### Метод
Методом решения является Multi-Step Group-Relative Policy Optimization (MS-GRPO), алгоритм, разработанный для последовательного улучшения поведения LLMs в задачах с несколькими этапами. Этот алгоритм основывается на формальных моделях Text-Mediated Stochastic Game (TSMG) и Language-Agent Policy (LAP), которые позволяют ему аккуратно назначать кредит за каждый шаг в последовательном решении. Наша модификация включает в себя поиск стратегии оптимальной оценки того, какой шаг в задаче с несколькими шагами вносит больший вклад в окончательный результат. Для этого мы внедрили абсолютно-преимущественную стратегию взвешивания, которая учитывает весь эпизод в качестве размера присуждаемого кредита. Эта стратегия улучшает темп обучения и позволяет лучше справляться с нетривиальными задачами.
#### Результаты
Мы проверили наш подход на двух задачах: Snake и Frozen Lake. Для экспериментов использовались две модели языковых моделей разных размеров: 3 миллиардов параметров и 72 миллиардов параметров. Улучшенная модель 3 миллиардов параметров, полученная с помощью MS-GRPO, показала значительное улучшение в производительности, превосходя базовую модель 72 миллиардов параметров на 50% в задаче Frozen Lake. Эти результаты показывают, что целевая пост-тренировка может быть эффективным способом улучшения поведения LLMs в задачах последовательного принятия решений, даже при малом размере модели.
#### Значимость
Методы, представленные в нашей работе, могут привести к значительным преимуществам в области искусственного интеллекта, особенно в тех случаях, когда необходимо использовать упрощенные модели с меньшим размером. Это может привести к экономии ресурсов и увеличению эффективности в сценариях, где требуется быстрое решение. Кроме того, наши результаты могут открыть пути для дальнейших исследований в области по
Annotation:
Large Language Models (LLMs) show potential as sequential decision-making
agents, but their application is often limited due to a reliance on large,
computationally expensive models. This creates a need to improve smaller
models, yet existing post-training methods are designed for single-turn
interactions and cannot handle credit assignment in multi-step agentic tasks.
To address this, we introduce Multi-Step Group-Relative Policy Optimization
(MS-GRPO), a new algorithm for post-training LLM age...