No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
2509.21880v1
cs.CL, cs.AI, cs.LG
2025-09-30
Авторы:
Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
Резюме на русском
## Контекст
В последние несколько лет Large Language Models (LLMs) стали одним из ключевых инструментов в процессе улучшения умственных способностей и решения различных задач. Однако их применение к задачам, требующим высокой точности и реакции на логические ошибки, остается трудной задачей. Этот факт мотивирует развитие фреймворков, позволяющих улучшить логические способности LLMs, в частности с использованием reinforcement learning (RL). Одна из проблем в этой области — неэффективное использование отрицательных ответов в RL, в частности, zero-variance prompts, которые не оказывают достаточного влияния на обучение. Такие проблемы влекут за собой предметно-специфический характер и мотивируют разработку новых подходов.
## Метод
В этой работе предлагается новый подход для использования zero-variance prompts в RL с использованием LLMs. Методология основывается на RL with Zero-Variance Prompts (RL-ZVP), который использует сигналы из zero-variance prompts для правильных решений. Алгоритм RL-ZVP реализует преобразования на уровне токенов, чтобы извлечь тонкую, информативную информацию из синхронных ответов на проблемы. Эта архитектура включает модификацию функции вознаграждения и преобразование отрицательных сигналов в полезные для обучения. Таким образом, RL-ZVP может извлекать значимость даже из "неинформативных" ответов.
## Результаты
Проведенные эксперименты демонстрируют высокую эффективность RL-ZVP на шести математических бенчмарках. Алгоритм показал улучшение до 8.61% в точности и до 7.77% в пройденных тестах по сравнению с GRPO. Кроме того, RL-ZVP оказался выигрышным в сравнении с другими методами, подходящими к обработке zero-variance prompts. Эти результаты подтверждают полезность использования zero-variance prompts в RLVR.
## Значимость
Результаты этой работы имеют значительное значение для развития RL с LLMs в сфере математических и логических задач. Использование zero-variance prompts позволяет извлекать полезные сигналы для обучения, даже в тех случаях, когда ответы на входные данные не отличаются. Это может привести к улучшению логических способностей LLMs в области решения задач, требующих высокой точности и логической корректности. Таким образом, RL-ZVP может быть применен в различных приложениях, где необходимо работать с высокоточными данными.
## Выводы
Результаты работы RL-ZVP подтверждают значимость использования zero-variance prompts в RLVR для улучшения логических способностей LLMs. Будущие исследования будут сосредоточены на расширении этого подхода на другие задачи, необходимые для улучшения глубиного разума LLMs. Эти разработки могут способствовать улучшению технологий, использующихся в области машинного обучения, логического тестирования и систем управ
Abstract
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework
for improving the reasoning abilities of Large Language Models (LLMs). However,
current methods such as GRPO rely only on problems where the model responses to
the same input differ in correctness, while ignoring those where all responses
receive the same reward - so-called zero-variance prompts. In this work, we
argue that such prompts are not useless but can, in fact, provide meaningful
feedback for policy optimization. To this end, we introduce RL with
Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals
from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes
errors even without contrasting responses, modulating feedback with token-level
characteristics to preserve informative, nuanced signals. Across six math
reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61
points in accuracy and 7.77 points in pass rate over GRPO, while consistently
outperforming other baselines that filter out zero-variance prompts. These
results highlight the untapped potential of learning from zero-variance prompts
in RLVR.
Ссылки и действия
Дополнительные ресурсы: