Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes

2508.11800v1 cs.LG, cs.AI 2025-08-19

Авторы:

Michael Bereket, Jure Leskovec

Резюме на русском

## Контекст В последние годы reinforcement learning (RL) продемонстрировал свою эффективность в улучшении точности языковых моделей в задачах, где результаты определены детерминированно, например, в математике. Однако возникает вопрос о том, насколько эффективны эти методы при работе с задачами, где результаты имеют стохастический характер, таких как научные эксперименты. Большая часть текущей RL-литературы ориентирована на детерминированные задачи, но менее исследована задача улучшения моделей стохастических результатов. Одной из причин этого является сложность моделирования и оценки моделей в таких средах. Без понимания как работают эти модели в стохастических условиях, невозможно выявить и устранить их недостатки. В настоящей работе мы исследуем, насколько RL-методы эффективны в улучшении моделей для задач, где результаты определяются стохастическими факторами. Мы применяем свои методы к синтетическим данным и реальным научным экспериментам, чтобы протестировать их эффективность. Наши результаты демонстрируют, что многие текущие RL-методы неэффективны в оптимизации моделей для таких задач. Это может привести к ошибкам в прогнозировании и принятии решений в области научных исследований. ## Метод Мы использовали три основных RL-метода для сравнения: Group Relative Policy Optimization (GRPO), Proximal Policy Optimization (PPO) и REINFORCE Leave-One-Out (RLOO). Были проведены эксперименты на синтетических данных, которые эмулируют бинарные стохастические результаты, а также на данных реальных научных экспериментов, связанных с биологическими системами. GRPO — это метод, использующий групповую нормализацию для оптимизации политик. PPO — метод, основанный на пробиндированной репродукции, который ограничивает изменение политики между эпохами. RLOO — метод, который оставляет один элемент для тестирования и использует остальные для обучения. Обучение моделей проводилось с использованием оптимизатора Adam, с гиперпараметрами, выбранными на основе тюнинга. Мы оценивали калибровочную точность моделей с помощью метрик, таких как Expected Calibration Error (ECE) и Classwise Calibration Error (CCE). ## Результаты Мы обнаружили, что GRPO стабильно вызывает переоценку достоверности (overconfidence) в прогнозах для бинарных стохастических результатов. На синтетических данных, где был искусственно создан стохастический результат, GRPO показал высокую достоверность в прогнозах, но с малой точностью. В то же время, PPO и RLOO демонстрировали более низкую достоверность, но более точные прогнозы. Эксперименты на реальных научных данных показали, что GRPO проигрывает PPO и RLOO в области калибровки прогнозов. Например, при оценивании вероятности появл

Abstract

Reinforcement learning (RL) has proven remarkably effective at improving the accuracy of language models in verifiable and deterministic domains like mathematics. Here, we examine if current RL methods are also effective at optimizing language models in verifiable domains with stochastic outcomes, like scientific experiments. Through applications to synthetic data and real-world biological experiments, we demonstrate that Group Relative Policy Optimization (GRPO) induces overconfident probability predictions for binary stochastic outcomes, while Proximal Policy Optimization (PPO) and REINFORCE Leave-One-Out (RLOO) yield well-calibrated models. We show that removing group standard normalization in GRPO fixes its miscalibration and provide a theoretical explanation for why normalization causes overconfidence. Our results provide new evidence against the use of standard normalization in GRPO and help pave the way for applications of RL for reasoning language models beyond deterministic domains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация