Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward
2509.01321v1
cs.LG, cs.CL
2025-09-05
Авторы:
Xinyu Tang, Zhenduo Zhang, Yurou Liu, Wayne Xin Zhao, Zujie Wen, Zhiqiang Zhang, Jun Zhou
Резюме на русском
## Контекст
Повышение эффективности обучения моделей взаимодействия с окружением (reinforcement learning, RL) является ключевым вызовом в современных искусственных интеллектах. Одним из проблематичных аспектов является недостаточная эффективность обучения в контексте RL с верифицируемыми наградами (RLVR), которая требует больших объемов данных и ресурсоемких вычислений. Это приводит к взрыву затрат на обучение и ограничению потенциала эффективного использования моделей в реальной жизни. Более того, традиционные подходы часто не учитывают разнообразие, важность и сложность выборки данных, что делает процесс обучения менее эффективным.
## Метод
DEPO (Data-Efficient Policy Optimization) представляет собой новую архитектуру для более эффективного использования данных в RLVR. В оффлайн-фазе, DEPO применяет методы критериев выбора, основанных на разнообразии, важности и сложности выборки. Это позволяет формировать высококачественный подвыбор данных, который способствует более эффективной оптимизации политики. Во время онлайн-обучения с RLVR, DEPO вводит метрику объяснимости выбора, которая анализирует возможность дополнительной эксплуатации выбора. Более того, DEPO использует механизм реплея для подвыбора недообученных выборок, чтобы обеспечить более глубокое и эффективное обучение модели.
## Результаты
Проведенные эксперименты показали, что DEPO выигрывает над традиционными подходами в значительной степени. Например, на бенчмарках AIME24 и AIME25, DEPO показал скорость обучения, 1.85 и 1.66 раз выше соответственно по сравнению с GRPO, но используя только 20% обучающих данных. Это свидетельствует о высокой эффективности DEPO в условиях ограниченных ресурсов и высоких требований к качеству обучения.
## Значимость
Результаты DEPO открывают новые возможности в области RLVR, позволяя увеличить эффективность обучения в ситуациях, где данные и ресурсы ограничены. Это может иметь значительное применение в сферах, где модели RLVR используются в реальных средах, например, в игровых системах, моделях социальных интерфейсов, а также в робототехнике. Благодаря DEPO, модели становятся более дешевыми в обучении и более точными в прогнозировании, что может способствовать их распространению в широких областях.
## Выводы
DEPO продемонстрировал свою силу в обучении моделей RLVR с более эффективным использованием данных. Открытые проблемы, такие как улучшение методов выбора данных и отказоустойчивость моделей, остаются актуальными для будущих исследований. Дальнейшие исследования могут сфокусироваться на расширении применимости DEPO к различным бизнес-ситуациям и
Abstract
Recent advances in large reasoning models have leveraged reinforcement
learning with verifiable rewards (RLVR) to improve reasoning capabilities.
However, scaling these methods typically requires extensive rollout computation
and large datasets, leading to high training costs and low data efficiency. To
mitigate this issue, we propose DEPO, a Data-Efficient Policy Optimization
pipeline that combines optimized strategies for both offline and online data
selection. In the offline phase, we curate a high-quality subset of training
samples based on diversity, influence, and appropriate difficulty. During
online RLVR training, we introduce a sample-level explorability metric to
dynamically filter samples with low exploration potential, thereby reducing
substantial rollout computational costs. Furthermore, we incorporate a replay
mechanism for under-explored samples to ensure adequate training, which
enhances the model's final convergence performance. Experiments across five
reasoning benchmarks show that DEPO consistently outperforms existing methods
in both offline and online data selection scenarios. Notably, using only 20% of
the training data, our approach achieves a 1.85 times speed-up on AIME24 and a
1.66 times speed-up on AIME25 compared to GRPO trained on the full dataset.
Ссылки и действия
Дополнительные ресурсы: