Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

2508.10751v1 cs.LG, cs.AI, cs.CL 2025-08-16

Авторы:

Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

Резюме на русском

## Контекст Область исследования сосредоточена на Reinforcement Learning with Verifiable Rewards (RLVR), который использует Pass@1 в качестве награды. Однако это подход сталкивается с проблемой достижения баланса между эксплорированием и эксплойтингом, что приводит к затухающему интересу к поиску новых решений и схождению к локальному оптимуму. Выбор подходящей метрики награды является ключевым для решения этой проблемы. Хотя Pass@k часто используется в оценке, его взаимосвязь с возможностью эксплорирования в RLVR остается недостаточно исследована. Мотивация исследования заключается в поиске решения этой проблемы и оптимизации политик поведения моделей с помощью более эффективных наградных метрик. ## Метод Исследование основывается на использовании Pass@k в качестве награды для обучения политики модели (Pass@k Training). Методология включает в себя аналитическую модель для вывода преимуществ Pass@k Training, что позволяет эффективно настраивать поведение модели. Реализация включает использование глубоких нейронных сетей для оценки возможности эксплорения. Анализ показывает, что Pass@k Training не только улучшает эксплорнацию, но и способствует более эффективному использованию локальных оптималов. Данный подход также рассматривается как применимость проектирования функций выгоды в RLVR. ## Результаты Эксперименты проводились на различных данных с разным уровнем сложности. Использовались модели с различным числом классов и размеров. Увеличение Pass@k в качестве награды позволило улучшить показатели эксплорейтинга и получить более сбалансированные решения. Отчет о результатах включал метрики, такие как F1-score и Pass@k, что позволило показать, как улучшение Pass@k влияет на эффективность политики модели. Результаты показали, что Pass@k Training приводит к более разумному балансу между эксплорной и эксплойтинговой стратегией. ## Значимость Полученные результаты имеют широкие применения в области глубокого обучения, в частности для large language models (LLMs). Этот подход позволяет улучшить не только эксплорейтинг, но и эксплойтинг, что делает поведение модели более универсальным. Известны преимущества Pass@k Training, в том числе улучшение разрешения сложных задач и уменьшение утечки информации во время обучения. В будущем можно рассмотреть проектирование более усовершенствованных функций выгоды, которые могут дать еще более эффективные результаты в RLVR и задачах связанных с ним. ## Выводы Основной достижением является установление того, что Pass@k Training может эффективно сбалансировать exploration и exploitation в RLVR. Также было показано, что этот подход может применяться к различным моделям и задачам. Будущими направлениями исследований является развитие более сложных функций выгоды

Abstract

Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as the reward to train the policy model (i.e., $\textbf{Pass@k Training}$), and observe the improvement on its exploration ability. Next, we derive an analytical solution for the advantage of Pass@k Training, leading to an efficient and effective process. Building on this, our analysis reveals that exploration and exploitation are not inherently conflicting objectives, while they can mutually enhance each other. Moreover, Pass@k Training with analytical derivation essentially involves directly designing the advantage function. Inspired by this, we preliminarily explore the advantage design for RLVR, showing promising results and highlighting a potential future direction.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация