Outcome-based Exploration for LLM Reasoning
2509.06941v1
cs.LG, cs.CL
2025-09-10
Авторы:
Yuda Song, Julia Kempe, Remi Munos
Резюме на русском
## Контекст
Искусственный интеллект (AI) становится все более важной частью современных технологий, особенно в области развития ло LLM (large language models). Одной из основных задач в этой области является улучшение моделей с помощью reinforcement learning (RL). Однако, применение RL к LLM может приводить к нежелательным последствиям, таким как уменьшение разнообразия в полученных ответах, которое становится критически важным для реального применения моделей в сценариях, где требуется широкий диапазон ответов. Это проблема особенно заметна в задачах, требующих высокого уровня логической рассуждений, таких как математические задачи. Этот феномен подчеркивает необходимость развития эффективных методов RL, которые могут улучшить точность ответов без потери разнообразия.
## Метод
Мы предлагаем новую методологию, выступающую в виде **outcome-based exploration**, чтобы улучшить точность LLM в решении задач и избежать потери разнообразия. Мы определяем две ключевые проблемы: (i) распространение деградации разнообразия на нерешенные задачи из уже решенных и (ii) ограниченный объем результатов в реальных задачах логического моделирования. Для решения этих проблем, мы предлагаем два новых алгоритма. Один алгоритм, **historical exploration**, прибегает к UCB-стилю бонусов для стимулирования редких решений. Второй алгоритм, **batch exploration**, вводит поправки на фактор разнообразия внутри подвыборки, чтобы повысить разнообразие результатов в тестировании. Наша архитектура RL взаимодействует с LLM в ходе пост-обучения, приложа подходы из области RL для оптимизации поведения модели в целях улучшения точности и разнообразия.
## Результаты
Мы проводили эксперименты с LLM-моделями, такими как Llama и Qwen, чтобы проверить эффективность наших методов. Наши результаты показали, что использование outcome-based exploration позволяет повысить точность модели, даже при ограниченном разнообразии ответов. Была проведена серия экспериментов на задачах математического рассуждения, где оба алгоритма (historical и batch exploration) показали значительное улучшение в точности решения задач, при этом уменьшив риск потери разнообразия ответов. Это позволило улучшить реальную эффективность моделей в сценариях, где требуется поддержка разнообразия ответов. Таким образом, наши результаты подтверждают значимость нашего подхода в решении проблемы уменьшения разнообразия в логическом моделировании.
## Значимость
Наш подход имеет широкие перспективы применения в различных областях, где требуется высокая точность в решении задач, но при этом необходимо сохранение разнообразия ответов. Например, в сфере ответа на вопросы, генерации текста, диагностике и машинного обучения. Мы показали
Abstract
Reinforcement learning (RL) has emerged as a powerful method for improving
the reasoning abilities of large language models (LLMs). Outcome-based RL,
which rewards policies solely for the correctness of the final answer, yields
substantial accuracy gains but also induces a systematic loss in generation
diversity. This collapse undermines real-world performance, where diversity is
critical for test-time scaling. We analyze this phenomenon by viewing RL
post-training as a sampling process and show that, strikingly, RL can reduce
effective diversity even on the training set relative to the base model. Our
study highlights two central findings: (i) a transfer of diversity degradation,
where reduced diversity on solved problems propagates to unsolved ones, and
(ii) the tractability of the outcome space, since reasoning tasks admit only a
limited set of distinct answers. Motivated by these insights, we propose
outcome-based exploration, which assigns exploration bonuses according to final
outcomes. We introduce two complementary algorithms: historical exploration,
which encourages rarely observed answers via UCB-style bonuses, and batch
exploration, which penalizes within-batch repetition to promote test-time
diversity. Experiments on standard competition math with Llama and Qwen models
demonstrate that both methods improve accuracy while mitigating diversity
collapse. On the theoretical side, we formalize the benefit of outcome-based
exploration through a new model of outcome-based bandits. Together, these
contributions chart a practical path toward RL methods that enhance reasoning
without sacrificing the diversity essential for scalable deployment.
Ссылки и действия
Дополнительные ресурсы: