Outcome-based Exploration for LLM Reasoning

2509.06941v1 cs.LG, cs.CL 2025-09-10
Авторы:

Yuda Song, Julia Kempe, Remi Munos

Резюме на русском

## Контекст Искусственный интеллект (AI) становится все более важной частью современных технологий, особенно в области развития ло LLM (large language models). Одной из основных задач в этой области является улучшение моделей с помощью reinforcement learning (RL). Однако, применение RL к LLM может приводить к нежелательным последствиям, таким как уменьшение разнообразия в полученных ответах, которое становится критически важным для реального применения моделей в сценариях, где требуется широкий диапазон ответов. Это проблема особенно заметна в задачах, требующих высокого уровня логической рассуждений, таких как математические задачи. Этот феномен подчеркивает необходимость развития эффективных методов RL, которые могут улучшить точность ответов без потери разнообразия. ## Метод Мы предлагаем новую методологию, выступающую в виде **outcome-based exploration**, чтобы улучшить точность LLM в решении задач и избежать потери разнообразия. Мы определяем две ключевые проблемы: (i) распространение деградации разнообразия на нерешенные задачи из уже решенных и (ii) ограниченный объем результатов в реальных задачах логического моделирования. Для решения этих проблем, мы предлагаем два новых алгоритма. Один алгоритм, **historical exploration**, прибегает к UCB-стилю бонусов для стимулирования редких решений. Второй алгоритм, **batch exploration**, вводит поправки на фактор разнообразия внутри подвыборки, чтобы повысить разнообразие результатов в тестировании. Наша архитектура RL взаимодействует с LLM в ходе пост-обучения, приложа подходы из области RL для оптимизации поведения модели в целях улучшения точности и разнообразия. ## Результаты Мы проводили эксперименты с LLM-моделями, такими как Llama и Qwen, чтобы проверить эффективность наших методов. Наши результаты показали, что использование outcome-based exploration позволяет повысить точность модели, даже при ограниченном разнообразии ответов. Была проведена серия экспериментов на задачах математического рассуждения, где оба алгоритма (historical и batch exploration) показали значительное улучшение в точности решения задач, при этом уменьшив риск потери разнообразия ответов. Это позволило улучшить реальную эффективность моделей в сценариях, где требуется поддержка разнообразия ответов. Таким образом, наши результаты подтверждают значимость нашего подхода в решении проблемы уменьшения разнообразия в логическом моделировании. ## Значимость Наш подход имеет широкие перспективы применения в различных областях, где требуется высокая точность в решении задач, но при этом необходимо сохранение разнообразия ответов. Например, в сфере ответа на вопросы, генерации текста, диагностике и машинного обучения. Мы показали

Abstract

Reinforcement learning (RL) has emerged as a powerful method for improving the reasoning abilities of large language models (LLMs). Outcome-based RL, which rewards policies solely for the correctness of the final answer, yields substantial accuracy gains but also induces a systematic loss in generation diversity. This collapse undermines real-world performance, where diversity is critical for test-time scaling. We analyze this phenomenon by viewing RL post-training as a sampling process and show that, strikingly, RL can reduce effective diversity even on the training set relative to the base model. Our study highlights two central findings: (i) a transfer of diversity degradation, where reduced diversity on solved problems propagates to unsolved ones, and (ii) the tractability of the outcome space, since reasoning tasks admit only a limited set of distinct answers. Motivated by these insights, we propose outcome-based exploration, which assigns exploration bonuses according to final outcomes. We introduce two complementary algorithms: historical exploration, which encourages rarely observed answers via UCB-style bonuses, and batch exploration, which penalizes within-batch repetition to promote test-time diversity. Experiments on standard competition math with Llama and Qwen models demonstrate that both methods improve accuracy while mitigating diversity collapse. On the theoretical side, we formalize the benefit of outcome-based exploration through a new model of outcome-based bandits. Together, these contributions chart a practical path toward RL methods that enhance reasoning without sacrificing the diversity essential for scalable deployment.

Ссылки и действия