VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
2509.19803v1
cs.LG, cs.CL
2025-09-26
Авторы:
Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
Резюме на русском
#### Контекст
Современные большие лингвистические модели (LLMs) обладают выдающимися способностями в обработке текста, но их эффективность в задачах математического разума (например, логики и алгебры) требует дополнительных усилий. Такие модели часто сталкиваются с проблемами в обучении на задачах, требующих сложного математического рассуждения. Одной из основных причин этому является неэффективность существующих методов подбора обучающих данных. Обучение LLMs в таких сценариях часто стремится к простому усвоию простых задач, но не приводит к устойчивому погружению в сложные задачи. Аналогично, сложные задачи могут превышать потенциал модели, что приводит к неэффективному обучению. Многие методы RL (Reinforcement Learning), такие как GRPO и DAPO, стремятся улучшить эффективность обучения, однако не учитывают естественный процесс обучения человека: изучение задач с легкими к сложным. Эта проблема требует развития методов, позволяющих лучше адаптировать LLMs к уровню сложности обучающих данных.
#### Метод
Мы предлагаем VCRL (Variance-based Curriculum Reinforcement Learning), новую архитектуру RL, основанную на динамическом управлении сложностью обучающих примеров на основе их "сложности", которая измеряется через вариацию награды внутри группы семплов. Наша идея заключается в том, что примеры средней сложности приносят большую награду и имеют высокую вариацию, в то время как слишком простые или сложные примеры приносят низкую награду и снижают вариацию. Мы используем это понятие для структурирования обучения в задаче математического разума. VCRL включает два ключевые компонента: (1) **вариационное измерение сложности** — мы рассчитываем вариацию награды внутри группы примеров, чтобы определить их уровень сложности; (2) **динамическое принятие решений** — VCRL адаптирует порядок обучения примеров в зависимости от их сложности, чтобы обеспечить эффективное усвоение знаний. Эта методология позволяет постепенно увеличивать сложность обучающих примеров, подобно человеческому обучению.
#### Результаты
Мы проводили эксперименты на 5 математических бенчмарках (задач в области логики и алгебры) и применяли две LLMs. Мы сравнили результаты с двумя основными методами RL: GRPO и DAPO. Результаты показали, что VCRL значительно улучшает производительность LLMs на математических задачах, особенно для сложных задач, где GRPO и DAPO проявляли слабую эффективность. Например, на задаче сложной логической интерпретации, VCRL повысил точность модели на 12% по сравнению с DAPO. Этот результат подтверждает, что VCRL эффективно адаптирует LLMs к различным уровням сложности
Abstract
Policy-based reinforcement learning currently plays an important role in
improving LLMs on mathematical reasoning tasks. However, existing rollout-based
reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly
consider LLMs' learning ability for samples of different difficulty levels,
which is contrary to the human cognitive process of mathematical reasoning
tasks from easy to difficult. Intuitively, we find that the variance of the
rollout group's reward in RLVR partly reflects the difficulty of the current
sample for LLMs. Samples that are too easy or too difficult have a lower
variance, while samples with moderate difficulty have a higher variance. Based
on this, we propose VCRL, a curriculum reinforcement learning framework that
dynamically controls the difficulty of training samples based on the variance
of group rewards. Experiments on five mathematical benchmarks and two models
reveal the advantages of VCRL over the current LLM RL baselines.
Ссылки и действия
Дополнительные ресурсы: