VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

2509.19803v1 cs.LG, cs.CL 2025-09-26
Авторы:

Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

Резюме на русском

#### Контекст Современные большие лингвистические модели (LLMs) обладают выдающимися способностями в обработке текста, но их эффективность в задачах математического разума (например, логики и алгебры) требует дополнительных усилий. Такие модели часто сталкиваются с проблемами в обучении на задачах, требующих сложного математического рассуждения. Одной из основных причин этому является неэффективность существующих методов подбора обучающих данных. Обучение LLMs в таких сценариях часто стремится к простому усвоию простых задач, но не приводит к устойчивому погружению в сложные задачи. Аналогично, сложные задачи могут превышать потенциал модели, что приводит к неэффективному обучению. Многие методы RL (Reinforcement Learning), такие как GRPO и DAPO, стремятся улучшить эффективность обучения, однако не учитывают естественный процесс обучения человека: изучение задач с легкими к сложным. Эта проблема требует развития методов, позволяющих лучше адаптировать LLMs к уровню сложности обучающих данных. #### Метод Мы предлагаем VCRL (Variance-based Curriculum Reinforcement Learning), новую архитектуру RL, основанную на динамическом управлении сложностью обучающих примеров на основе их "сложности", которая измеряется через вариацию награды внутри группы семплов. Наша идея заключается в том, что примеры средней сложности приносят большую награду и имеют высокую вариацию, в то время как слишком простые или сложные примеры приносят низкую награду и снижают вариацию. Мы используем это понятие для структурирования обучения в задаче математического разума. VCRL включает два ключевые компонента: (1) **вариационное измерение сложности** — мы рассчитываем вариацию награды внутри группы примеров, чтобы определить их уровень сложности; (2) **динамическое принятие решений** — VCRL адаптирует порядок обучения примеров в зависимости от их сложности, чтобы обеспечить эффективное усвоение знаний. Эта методология позволяет постепенно увеличивать сложность обучающих примеров, подобно человеческому обучению. #### Результаты Мы проводили эксперименты на 5 математических бенчмарках (задач в области логики и алгебры) и применяли две LLMs. Мы сравнили результаты с двумя основными методами RL: GRPO и DAPO. Результаты показали, что VCRL значительно улучшает производительность LLMs на математических задачах, особенно для сложных задач, где GRPO и DAPO проявляли слабую эффективность. Например, на задаче сложной логической интерпретации, VCRL повысил точность модели на 12% по сравнению с DAPO. Этот результат подтверждает, что VCRL эффективно адаптирует LLMs к различным уровням сложности

Abstract

Policy-based reinforcement learning currently plays an important role in improving LLMs on mathematical reasoning tasks. However, existing rollout-based reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly consider LLMs' learning ability for samples of different difficulty levels, which is contrary to the human cognitive process of mathematical reasoning tasks from easy to difficult. Intuitively, we find that the variance of the rollout group's reward in RLVR partly reflects the difficulty of the current sample for LLMs. Samples that are too easy or too difficult have a lower variance, while samples with moderate difficulty have a higher variance. Based on this, we propose VCRL, a curriculum reinforcement learning framework that dynamically controls the difficulty of training samples based on the variance of group rewards. Experiments on five mathematical benchmarks and two models reveal the advantages of VCRL over the current LLM RL baselines.

Ссылки и действия