Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

2508.09726v1 cs.CL, cs.LG 2025-08-15

Авторы:

Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos

Резюме на русском

#### Контекст В последние годы появились большие языковые модели (LLM), которые позволяют решать не только простые задачи, но и задачи, требующие высокого уровня логического рассуждения. Однако эти модели часто страдают от проблемы "длинного ответа", когда для достижения более высокой точности ответы становятся длиннее и содержат много ненужной информации. Это приводит к значительному увеличению необходимой вычислительной стоимости. Наша исследовательская группа работает над эффективным решением этой проблемы, стремясь сократить длину ответов без потери точности. #### Метод Мы предлагаем **Group Filtered Policy Optimization (GFPO)**, архитектуру, которая учит модели сократить длину ответов, используя эффективный подход к выборке и фильтрации. Мы работаем с конкретными метриками: длина ответа и эффективность токенов (то есть "результат за токен"). Наша модель оптимизирует эти характеристики, научаясь выбирать более короткие, но точные ответы во время тренировки, чтобы во время использования не производить излишних вычислений. #### Результаты Мы проверили нашу модель на нескольких сложных задачах, включая тесты по STEM и программированию. Наши эксперименты показали, что GFPO существенно сокращает длину ответов в сравнении с традиционными алгоритмами, которые пытаются повысить точность, увеличив длину ответа. Мы также показали, что оптимизация под "результат за токен" дает еще большую эффективность, сокращая длину до 71-85%. #### Значимость Наш подход может быть применен в области создания эффективных языковых моделей для решения сложных задач, таких как решение задач по STEM, программированию и логического моделирования. Он позволяет сократить стоимость вычислений, не ухудшая точность. Это имеет значительный потенциал для улучшения практического применения моделей, особенно в ситуациях, где вычислительная стоимость критична. #### Выводы Мы доказали, что наш подход может эффективно решать проблему длинного ответа, существенно сократив необходимый объем вычислений. В будущем мы планируем провести дополнительные эксперименты для переноса этого подхода на другие типы задач и моделей, чтобы усилить его широкое применение.

Abstract

Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация