GTPO: Trajectory-Based Policy Optimization in Large Language Models
2508.03772v1
cs.LG, cs.AI, cs.CL
2025-08-09
Авторы:
Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino
Резюме на русском
**Резюме**
Политические оптимизации широко используются для тренировки и выравнивания языковых моделей, но имеют существенные ограничения. Метод Group-relative Policy Optimization (GRPO) стал одним из самых эффективных подходов, но страдает двумя главными недостатками. Во-первых, токены часто получают противоречивые награды (положительные и отрицательные), что приводит к нестабильным градиентам и снижению их вероятности. Во-вторых, отрицательные награды могут пенализировать уверенные ответы, приводя к разряжению выходного распределения и ухудшению обучения.
Мы предлагаем GTPO (Group-relative Trajectory-based Policy Optimization), который решает эти проблемы. Метод идентифицирует "конфликтные" токены, появляющиеся в завершениях с противоположными наградами, и защищает их от отрицательных обновлений, повышая вероятности положительных. Также GTPO исключает завершения с высоким энтропийным неопределенностью. Благодаря этому GTPO обеспечивает более устойчивое и эффективное обучение, не прибегая к регуляризации KL-дивергенции или ссылочной модели, что подтверждено результатами на GSM8K, MATH и AIME 2024.
Abstract
Policy-based optimizations are widely adopted today for the training and
alignment of language models, where one of the most recent and effective
approaches is Group-relative Policy Optimization (GRPO). In this paper, we
reveals and analyze two major limitations of GRPO: (i) tokens frequently appear
in completions with both positive and negative rewards, leading to conflicting
gradient updates that can reduce their output probability, even though can be
essential for maintaining proper structure; (ii) negatively rewarded
completions may penalize confident responses and shift model decisions toward
unlikely tokens, progressively flattening the output distribution and degrading
learning. To address these issues and provide a more stable and effective
policy optimization strategy, we introduce GTPO (Group-relative
Trajectory-based Policy Optimization), which identifies conflict tokens, tokens
appearing in the same position across completions with opposite rewards,
protects them by skipping negative updates, while amplifying positive ones. To
further prevent policy collapse, GTPO filters out completions whose entropy
exceeds a provable threshold. Unlike GRPO, GTPO does not rely on KL-divergence
regularization, eliminating the need for a reference model during training,
while still ensuring greater training stability and improved performance,
validated through multiple experiments on GSM8K, MATH and AIME 2024 benchmarks.
Ссылки и действия
Дополнительные ресурсы: