Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
2508.10751v1
cs.LG, cs.AI, cs.CL
2025-08-16
Авторы:
Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
Резюме на русском
## Контекст
Область исследования сосредоточена на Reinforcement Learning with Verifiable Rewards (RLVR), который использует Pass@1 в качестве награды. Однако это подход сталкивается с проблемой достижения баланса между эксплорированием и эксплойтингом, что приводит к затухающему интересу к поиску новых решений и схождению к локальному оптимуму. Выбор подходящей метрики награды является ключевым для решения этой проблемы. Хотя Pass@k часто используется в оценке, его взаимосвязь с возможностью эксплорирования в RLVR остается недостаточно исследована. Мотивация исследования заключается в поиске решения этой проблемы и оптимизации политик поведения моделей с помощью более эффективных наградных метрик.
## Метод
Исследование основывается на использовании Pass@k в качестве награды для обучения политики модели (Pass@k Training). Методология включает в себя аналитическую модель для вывода преимуществ Pass@k Training, что позволяет эффективно настраивать поведение модели. Реализация включает использование глубоких нейронных сетей для оценки возможности эксплорения. Анализ показывает, что Pass@k Training не только улучшает эксплорнацию, но и способствует более эффективному использованию локальных оптималов. Данный подход также рассматривается как применимость проектирования функций выгоды в RLVR.
## Результаты
Эксперименты проводились на различных данных с разным уровнем сложности. Использовались модели с различным числом классов и размеров. Увеличение Pass@k в качестве награды позволило улучшить показатели эксплорейтинга и получить более сбалансированные решения. Отчет о результатах включал метрики, такие как F1-score и Pass@k, что позволило показать, как улучшение Pass@k влияет на эффективность политики модели. Результаты показали, что Pass@k Training приводит к более разумному балансу между эксплорной и эксплойтинговой стратегией.
## Значимость
Полученные результаты имеют широкие применения в области глубокого обучения, в частности для large language models (LLMs). Этот подход позволяет улучшить не только эксплорейтинг, но и эксплойтинг, что делает поведение модели более универсальным. Известны преимущества Pass@k Training, в том числе улучшение разрешения сложных задач и уменьшение утечки информации во время обучения. В будущем можно рассмотреть проектирование более усовершенствованных функций выгоды, которые могут дать еще более эффективные результаты в RLVR и задачах связанных с ним.
## Выводы
Основной достижением является установление того, что Pass@k Training может эффективно сбалансировать exploration и exploitation в RLVR. Также было показано, что этот подход может применяться к различным моделям и задачам. Будущими направлениями исследований является развитие более сложных функций выгоды
Abstract
Reinforcement learning with verifiable rewards (RLVR), which typically adopts
Pass@1 as the reward, has faced the issues in balancing exploration and
exploitation, causing policies to prefer conservative actions, converging to a
local optimum. Identifying an appropriate reward metric is therefore crucial.
Regarding the prior work, although Pass@k has been used in evaluation, its
connection to LLM exploration ability in RLVR remains largely overlooked. To
investigate this, we first use Pass@k as the reward to train the policy model
(i.e., $\textbf{Pass@k Training}$), and observe the improvement on its
exploration ability. Next, we derive an analytical solution for the advantage
of Pass@k Training, leading to an efficient and effective process. Building on
this, our analysis reveals that exploration and exploitation are not inherently
conflicting objectives, while they can mutually enhance each other. Moreover,
Pass@k Training with analytical derivation essentially involves directly
designing the advantage function. Inspired by this, we preliminarily explore
the advantage design for RLVR, showing promising results and highlighting a
potential future direction.
Ссылки и действия
Дополнительные ресурсы: