GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy
2508.04349v1
cs.CL, cs.AI
2025-08-09
Авторы:
Hongze Tan, Jianfei Pan
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последнее время получение глубокой и точной информации из больших языковых моделей (Large Language Models, LLMs) стало важной задачей. Одним из ключевых методов для достижения этой цели является Reinforcement Learning (RL), который стремится улучшить точность и согласованность моделей. Однако существующие подходы, такие как Group Relative Policy Optimization (GRPO), сталкиваются с проблемой грубого распределения наград (credit assignment) по токенам в последовательности. Это ограничивает их эффективность в задачах сложной цепочки рассуждений, где необходимо выделять и усиливать конкретные элементы последовательности.
Традиционные методы RL, такие как DAPO, применяют одинаковые награды ко всем токенам в последовательности, что может привести к неточному обучению. Это особенно заметно в задачах, требующих точного понимания и логического рассуждения, где некоторые токены могут быть более важными для правильного решения, чем другие. Недостаточное распределение наград также может привести к неэффективному использованию модельных ресурсов и неоптимальному обучению.
Авторы статьи предлагают решение этой проблемы с помощью **Dynamic Entropy Weighting**, который позволяет создавать более тонкие и динамические награды для токенов и последовательностей. Идея заключается в том, что высокий уровень энтропии в токенах, составляющих корректные ответы, может служить руководством для улучшения модели. Это позволяет направить обучение в нужном направлении, оптимизировав политику на основе энтропии.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают два новых метода для улучшения обучения RL: **Group Token Policy Optimization (GTPO)** и **Sequence-Level Group Relative Policy Optimization (GRPO-S)**. Оба метода основываются на концепции **Dynamic Entropy Weighting**, которая использует энтропию токенов для формирования более точных наград.
### GTPO (Group Token Policy Optimization)
В GTPO каждый токен в последовательности назначается своей наградой, которая основывается на его энтропии. Токены с высокой энтропией получают большие награды, тогда как токены с низкой энтропией получают меньшие награды. Это позволяет создавать более детальные и точные сигналы для обновления модельной политики, что в конечном счете приводит к лучшему обучению.
### GRPO-S (Sequence-Level Group Relative Policy Optimization)
В GRPO-S награда назначается не только на уровне токенов, но и на уровне последовательностей. Каждая последовательность получает награду, основанную на средней энтропии её токенов. Это позволяет выделять целые последовательности, которые являются более полезными для обучения, и направлять модель на оптимизацию этих последовательностей.
Оба метода, GTPO и GRPO-S, используют энтропию для создания более детальных сигналов для обучения, что позволяет модели более эффективно распознавать и оптимизировать важные элементы последовательности.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели ряд экспериментов для оценки эффективности их методов. Использовались данные из различных доменов, включая задачи логических рассуждений и понимания естественного языка. Эксперименты проводились на базе модели DAPO, которая служила базой для сравнения.
Результаты показали, что методы GTPO и GRPO-S значительно превосходят DAPO в терминах точности и качества получаемых результатов. Использование энтропии в качестве ключевого фактора для формирования наград позволило достичь лучших результатов в задачах, требующих глубокого рассуждения. Было показано, что токены с высокой энтропией действительно играют ключевую роль в улучшении модельной политики.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемые методы GTPO и GRPO-S имеют широкое применение в областях, требующих глубокого понимания и рассуждения. Они могут быть использованы для улучшения точности моделей в таких задачах, как автоматическое завершение предложений, вопросов и ответов, а также в областях, где важна точная логическая структура ответов.
Основными преимуществами данных методов являются:
- **Улучшенная точность**: Благодаря более точному распределению наград, модели становятся более точными в решении сложных задач.
- **Эффективность обучения**: Динамическое присвоение наград позволяет оптимизировать процесс обучения, сокращая время и ресурсы, необходимые для достижения хороших результатов.
- **Применимость в реальных сценариях**: Методы могут быть интегрированы в различные приложения, требующие высокого качества рассуждений, такие как чат-боты, системы поддержки и автоматические помощники.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В работе представлены два новых метода, GTPO и GRPO-S, которые используют энтропию токенов для формирования более точных наград в RL. Эти методы показали значительные улучшения по сравнению с традиционными подходами, такими как DAPO.
В будущем можно исследовать дальнейшие возможности улучшения этих методов, например, используя другие критерии для формирования наград или применяя их в более широких областях, таких как многомодальные модели и задачи, связанные с визуальным восприятием. Также важно изучить влияние этих методов на модели с различными архитектурами и размерами.
В целом, предложенные методы открывают новые возможности для улучшения глубоких моделей рассуждений, что может иметь значительное влияние на развитие искусственного интеллекта.
Abstract
Reinforcement learning (RL) with algorithms like Group Relative Policy
Optimization (GRPO) improves Large Language Model (LLM) reasoning, but is
limited by a coarse-grained credit assignment that applies a uniform reward to
all tokens in a sequence. This is a major flaw in long-chain reasoning tasks.
This paper solves this with \textbf{Dynamic Entropy Weighting}. Our core idea
is that high-entropy tokens in correct responses can guide the policy toward a
higher performance ceiling. This allows us to create more fine-grained reward
signals for precise policy updates via two ways: 1) \textbf{Group Token Policy
Optimization} (\textbf{GTPO}), we assigns a entropy-weighted reward to each
token for fine-grained credit assignment. 2) \textbf{Sequence-Level Group
Relative Policy Optimization} (\textbf{GRPO-S}), we assigns a entropy-weighted
reward to each sequence based on its average token entropy. Experiments show
our methods significantly outperform the strong DAPO baseline. The results
confirm that our entropy-weighting mechanism is the key driver of this
performance boost, offering a better path to enhance deep reasoning in models.
Ссылки и действия
Дополнительные ресурсы: