Train Long, Think Short: Curriculum Learning for Efficient Reasoning

2508.08940v1 cs.CL, cs.AI, cs.LG 2025-08-14
Авторы:

Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem

Резюме на русском

#### Контекст Недавние работы над улучшением разумного поведения больших языковых моделей (LLM) сосредоточились на внедрении экспериментальных техник для эффективного управления ресурсами. Одна из таких техник — **explicit length control**, которая позволяет ограничивать используемые ресурсы в процессе вычислений. Однако существующие подходы ограничиваются фиксированными требованиями к объему вычислений, не применяя прогрессивное уменьшение требований в процессе обучения. Это приводит к затруднению нахождения наилучших решений и сокращения расходов. В данной работе предлагается новая **методология обучения**, которая использует **стратегию curriculum learning** для эффективного рассуждения с помощью Group Relative Policy Optimization (GRPO). #### Метод Методом GRPO реализуется обучение с циклом уменьшения требований к длине ответа. Обучение начинается с максимального объема вычислений (большого числа токенов) и постепенно уменьшается в процессе обучения. Это позволяет моделям сначала понять базовые принципы решения задач, затем улучшить эффективность выполнения заданий, а после — сократить количество используемых токенов. GRPO также включает в себя **reward function**, которая принимает во внимание три основные компонента: **правильность решения** задачи (через верификаторные отзывы), **эффективность решения** (через уменьшение количества используемых токенов) и **корректность форматирования** (через структурные тэги). Это позволяет модели быстрее находить баланс между точностью и эффективностью. #### Результаты Для оценки эффективности стратегии обучения были проведены эксперименты на наборах данных GSM8K, MATH500, SVAMP, College Math и GSM+. Выяснилось, что curriculum-based обучение, реализованное с помощью GRPO, показало значительное улучшение в точности распознавания и эффективности использования ресурсов. В частности, модели, обученные с помощью GRPO, показали лучшие результаты в сравнении с фиксированным бюджетом на токенах в тех же условиях. Также было проведено анализ влияния весов в reward function и структуры убывания требований к длине ответов, что подтвердило эффективность этого подхода. #### Значимость Предложенная стратегия обучения может быть применена в ситуациях, требующих эффективного управления ресурсами, таких как обучение моделей для мобильных устройств, быстрого обработки запросов и экономии ресурсов в области AI. Эта методика позволяет моделям рационально проходить от экспериментального рассуждения к компактному и эффективному решению задач. Это включает в себя увеличение точности ответов и сокращение расходов на вычисления. #### Выводы **Основные достижения**: в данной работе представлена новая стратегия обучения, основанная на curriculum learning, для эффективно

Abstract

Recent work on enhancing the reasoning abilities of large language models (LLMs) has introduced explicit length control as a means of constraining computational cost while preserving accuracy. However, existing approaches rely on fixed-length training budgets, which do not take advantage of the natural progression from exploration to compression during learning. In this work, we propose a curriculum learning strategy for length-controlled reasoning using Group Relative Policy Optimization (GRPO). Our method starts with generous token budgets and gradually tightens them over training, encouraging models to first discover effective solution strategies and then distill them into more concise reasoning traces. We augment GRPO with a reward function that balances three signals: task correctness (via verifier feedback), length efficiency, and formatting adherence (via structural tags). Experiments on GSM8K, MATH500, SVAMP, College Math, and GSM+ demonstrate that curriculum-based training consistently outperforms fixed-budget baselines at the same final budget, achieving higher accuracy and significantly improved token efficiency. We further ablate the impact of reward weighting and decay schedule design, showing that progressive constraint serves as a powerful inductive bias for training efficient reasoning models. Our code and checkpoints are released at: https://github.com/hammoudhasan/curriculum_grpo.

Ссылки и действия