No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

2509.21880v1 cs.CL, cs.AI, cs.LG 2025-09-30

Авторы:

Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang

Резюме на русском

## Контекст В последние несколько лет Large Language Models (LLMs) стали одним из ключевых инструментов в процессе улучшения умственных способностей и решения различных задач. Однако их применение к задачам, требующим высокой точности и реакции на логические ошибки, остается трудной задачей. Этот факт мотивирует развитие фреймворков, позволяющих улучшить логические способности LLMs, в частности с использованием reinforcement learning (RL). Одна из проблем в этой области — неэффективное использование отрицательных ответов в RL, в частности, zero-variance prompts, которые не оказывают достаточного влияния на обучение. Такие проблемы влекут за собой предметно-специфический характер и мотивируют разработку новых подходов. ## Метод В этой работе предлагается новый подход для использования zero-variance prompts в RL с использованием LLMs. Методология основывается на RL with Zero-Variance Prompts (RL-ZVP), который использует сигналы из zero-variance prompts для правильных решений. Алгоритм RL-ZVP реализует преобразования на уровне токенов, чтобы извлечь тонкую, информативную информацию из синхронных ответов на проблемы. Эта архитектура включает модификацию функции вознаграждения и преобразование отрицательных сигналов в полезные для обучения. Таким образом, RL-ZVP может извлекать значимость даже из "неинформативных" ответов. ## Результаты Проведенные эксперименты демонстрируют высокую эффективность RL-ZVP на шести математических бенчмарках. Алгоритм показал улучшение до 8.61% в точности и до 7.77% в пройденных тестах по сравнению с GRPO. Кроме того, RL-ZVP оказался выигрышным в сравнении с другими методами, подходящими к обработке zero-variance prompts. Эти результаты подтверждают полезность использования zero-variance prompts в RLVR. ## Значимость Результаты этой работы имеют значительное значение для развития RL с LLMs в сфере математических и логических задач. Использование zero-variance prompts позволяет извлекать полезные сигналы для обучения, даже в тех случаях, когда ответы на входные данные не отличаются. Это может привести к улучшению логических способностей LLMs в области решения задач, требующих высокой точности и логической корректности. Таким образом, RL-ZVP может быть применен в различных приложениях, где необходимо работать с высокоточными данными. ## Выводы Результаты работы RL-ZVP подтверждают значимость использования zero-variance prompts в RLVR для улучшения логических способностей LLMs. Будущие исследования будут сосредоточены на расширении этого подхода на другие задачи, необходимые для улучшения глубиного разума LLMs. Эти разработки могут способствовать улучшению технологий, использующихся в области машинного обучения, логического тестирования и систем управ

Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация