Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward

2509.01321v1 cs.LG, cs.CL 2025-09-05
Авторы:

Xinyu Tang, Zhenduo Zhang, Yurou Liu, Wayne Xin Zhao, Zujie Wen, Zhiqiang Zhang, Jun Zhou

Резюме на русском

## Контекст Повышение эффективности обучения моделей взаимодействия с окружением (reinforcement learning, RL) является ключевым вызовом в современных искусственных интеллектах. Одним из проблематичных аспектов является недостаточная эффективность обучения в контексте RL с верифицируемыми наградами (RLVR), которая требует больших объемов данных и ресурсоемких вычислений. Это приводит к взрыву затрат на обучение и ограничению потенциала эффективного использования моделей в реальной жизни. Более того, традиционные подходы часто не учитывают разнообразие, важность и сложность выборки данных, что делает процесс обучения менее эффективным. ## Метод DEPO (Data-Efficient Policy Optimization) представляет собой новую архитектуру для более эффективного использования данных в RLVR. В оффлайн-фазе, DEPO применяет методы критериев выбора, основанных на разнообразии, важности и сложности выборки. Это позволяет формировать высококачественный подвыбор данных, который способствует более эффективной оптимизации политики. Во время онлайн-обучения с RLVR, DEPO вводит метрику объяснимости выбора, которая анализирует возможность дополнительной эксплуатации выбора. Более того, DEPO использует механизм реплея для подвыбора недообученных выборок, чтобы обеспечить более глубокое и эффективное обучение модели. ## Результаты Проведенные эксперименты показали, что DEPO выигрывает над традиционными подходами в значительной степени. Например, на бенчмарках AIME24 и AIME25, DEPO показал скорость обучения, 1.85 и 1.66 раз выше соответственно по сравнению с GRPO, но используя только 20% обучающих данных. Это свидетельствует о высокой эффективности DEPO в условиях ограниченных ресурсов и высоких требований к качеству обучения. ## Значимость Результаты DEPO открывают новые возможности в области RLVR, позволяя увеличить эффективность обучения в ситуациях, где данные и ресурсы ограничены. Это может иметь значительное применение в сферах, где модели RLVR используются в реальных средах, например, в игровых системах, моделях социальных интерфейсов, а также в робототехнике. Благодаря DEPO, модели становятся более дешевыми в обучении и более точными в прогнозировании, что может способствовать их распространению в широких областях. ## Выводы DEPO продемонстрировал свою силу в обучении моделей RLVR с более эффективным использованием данных. Открытые проблемы, такие как улучшение методов выбора данных и отказоустойчивость моделей, остаются актуальными для будущих исследований. Дальнейшие исследования могут сфокусироваться на расширении применимости DEPO к различным бизнес-ситуациям и

Abstract

Recent advances in large reasoning models have leveraged reinforcement learning with verifiable rewards (RLVR) to improve reasoning capabilities. However, scaling these methods typically requires extensive rollout computation and large datasets, leading to high training costs and low data efficiency. To mitigate this issue, we propose DEPO, a Data-Efficient Policy Optimization pipeline that combines optimized strategies for both offline and online data selection. In the offline phase, we curate a high-quality subset of training samples based on diversity, influence, and appropriate difficulty. During online RLVR training, we introduce a sample-level explorability metric to dynamically filter samples with low exploration potential, thereby reducing substantial rollout computational costs. Furthermore, we incorporate a replay mechanism for under-explored samples to ensure adequate training, which enhances the model's final convergence performance. Experiments across five reasoning benchmarks show that DEPO consistently outperforms existing methods in both offline and online data selection scenarios. Notably, using only 20% of the training data, our approach achieves a 1.85 times speed-up on AIME24 and a 1.66 times speed-up on AIME25 compared to GRPO trained on the full dataset.

Ссылки и действия