Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
2508.09726v1
cs.CL, cs.LG
2025-08-15
Авторы:
Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
Резюме на русском
#### Контекст
В последние годы появились большие языковые модели (LLM), которые позволяют решать не только простые задачи, но и задачи, требующие высокого уровня логического рассуждения. Однако эти модели часто страдают от проблемы "длинного ответа", когда для достижения более высокой точности ответы становятся длиннее и содержат много ненужной информации. Это приводит к значительному увеличению необходимой вычислительной стоимости. Наша исследовательская группа работает над эффективным решением этой проблемы, стремясь сократить длину ответов без потери точности.
#### Метод
Мы предлагаем **Group Filtered Policy Optimization (GFPO)**, архитектуру, которая учит модели сократить длину ответов, используя эффективный подход к выборке и фильтрации. Мы работаем с конкретными метриками: длина ответа и эффективность токенов (то есть "результат за токен"). Наша модель оптимизирует эти характеристики, научаясь выбирать более короткие, но точные ответы во время тренировки, чтобы во время использования не производить излишних вычислений.
#### Результаты
Мы проверили нашу модель на нескольких сложных задачах, включая тесты по STEM и программированию. Наши эксперименты показали, что GFPO существенно сокращает длину ответов в сравнении с традиционными алгоритмами, которые пытаются повысить точность, увеличив длину ответа. Мы также показали, что оптимизация под "результат за токен" дает еще большую эффективность, сокращая длину до 71-85%.
#### Значимость
Наш подход может быть применен в области создания эффективных языковых моделей для решения сложных задач, таких как решение задач по STEM, программированию и логического моделирования. Он позволяет сократить стоимость вычислений, не ухудшая точность. Это имеет значительный потенциал для улучшения практического применения моделей, особенно в ситуациях, где вычислительная стоимость критична.
#### Выводы
Мы доказали, что наш подход может эффективно решать проблему длинного ответа, существенно сократив необходимый объем вычислений. В будущем мы планируем провести дополнительные эксперименты для переноса этого подхода на другие типы задач и моделей, чтобы усилить его широкое применение.
Abstract
Large language models trained with reinforcement learning with verifiable
rewards tend to trade accuracy for length--inflating response lengths to
achieve gains in accuracy. While longer answers may be warranted for harder
problems, many tokens are merely "filler": repetitive, verbose text that makes
no real progress. We introduce GFPO (Group Filtered Policy Optimization), which
curbs this length explosion by sampling larger groups per problem during
training and filtering responses to train on based on two key metrics: (1)
response length and (2) token efficiency: reward per token ratio. By sampling
more at training time, we teach models to think less at inference time. On the
Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across
challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH,
LiveCodeBench) while maintaining accuracy. Optimizing for reward per token
further increases reductions in length inflation to 71-85%. We also propose
Adaptive Difficulty GFPO, which dynamically allocates more training resources
to harder problems based on real-time difficulty estimates, improving the
balance between computational efficiency and accuracy especially on difficult
questions. GFPO demonstrates that increased training-time compute directly
translates to reduced test-time compute--a simple yet effective trade-off for
efficient reasoning.
Ссылки и действия
Дополнительные ресурсы: