Train Long, Think Short: Curriculum Learning for Efficient Reasoning
2508.08940v1
cs.CL, cs.AI, cs.LG
2025-08-14
Авторы:
Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
Резюме на русском
#### Контекст
Недавние работы над улучшением разумного поведения больших языковых моделей (LLM) сосредоточились на внедрении экспериментальных техник для эффективного управления ресурсами. Одна из таких техник — **explicit length control**, которая позволяет ограничивать используемые ресурсы в процессе вычислений. Однако существующие подходы ограничиваются фиксированными требованиями к объему вычислений, не применяя прогрессивное уменьшение требований в процессе обучения. Это приводит к затруднению нахождения наилучших решений и сокращения расходов. В данной работе предлагается новая **методология обучения**, которая использует **стратегию curriculum learning** для эффективного рассуждения с помощью Group Relative Policy Optimization (GRPO).
#### Метод
Методом GRPO реализуется обучение с циклом уменьшения требований к длине ответа. Обучение начинается с максимального объема вычислений (большого числа токенов) и постепенно уменьшается в процессе обучения. Это позволяет моделям сначала понять базовые принципы решения задач, затем улучшить эффективность выполнения заданий, а после — сократить количество используемых токенов. GRPO также включает в себя **reward function**, которая принимает во внимание три основные компонента: **правильность решения** задачи (через верификаторные отзывы), **эффективность решения** (через уменьшение количества используемых токенов) и **корректность форматирования** (через структурные тэги). Это позволяет модели быстрее находить баланс между точностью и эффективностью.
#### Результаты
Для оценки эффективности стратегии обучения были проведены эксперименты на наборах данных GSM8K, MATH500, SVAMP, College Math и GSM+. Выяснилось, что curriculum-based обучение, реализованное с помощью GRPO, показало значительное улучшение в точности распознавания и эффективности использования ресурсов. В частности, модели, обученные с помощью GRPO, показали лучшие результаты в сравнении с фиксированным бюджетом на токенах в тех же условиях. Также было проведено анализ влияния весов в reward function и структуры убывания требований к длине ответов, что подтвердило эффективность этого подхода.
#### Значимость
Предложенная стратегия обучения может быть применена в ситуациях, требующих эффективного управления ресурсами, таких как обучение моделей для мобильных устройств, быстрого обработки запросов и экономии ресурсов в области AI. Эта методика позволяет моделям рационально проходить от экспериментального рассуждения к компактному и эффективному решению задач. Это включает в себя увеличение точности ответов и сокращение расходов на вычисления.
#### Выводы
**Основные достижения**: в данной работе представлена новая стратегия обучения, основанная на curriculum learning, для эффективно
Abstract
Recent work on enhancing the reasoning abilities of large language models
(LLMs) has introduced explicit length control as a means of constraining
computational cost while preserving accuracy. However, existing approaches rely
on fixed-length training budgets, which do not take advantage of the natural
progression from exploration to compression during learning. In this work, we
propose a curriculum learning strategy for length-controlled reasoning using
Group Relative Policy Optimization (GRPO). Our method starts with generous
token budgets and gradually tightens them over training, encouraging models to
first discover effective solution strategies and then distill them into more
concise reasoning traces. We augment GRPO with a reward function that balances
three signals: task correctness (via verifier feedback), length efficiency, and
formatting adherence (via structural tags). Experiments on GSM8K, MATH500,
SVAMP, College Math, and GSM+ demonstrate that curriculum-based training
consistently outperforms fixed-budget baselines at the same final budget,
achieving higher accuracy and significantly improved token efficiency. We
further ablate the impact of reward weighting and decay schedule design,
showing that progressive constraint serves as a powerful inductive bias for
training efficient reasoning models. Our code and checkpoints are released at:
https://github.com/hammoudhasan/curriculum_grpo.
Ссылки и действия
Дополнительные ресурсы: