Don't Think Twice! Over-Reasoning Impairs Confidence Calibration

2508.15050v1 cs.AI, cs.CL 2025-08-23

Авторы:

Romain Lacombe, Kerrie Wu, Eddie Dilworth

Резюме на русском

## Контекст Одна из ключевых проблем в области знаний-интенсивных задач, таких как ответы на вопросы, является обеспечение точной калибровки уверенности. Несмотря на то, что текущие тест-тайм скалируемые модели языка (LLMs) показывают высокую точность в тестировании, они часто превращаются в значительное переоценивание своей уверенности. Это негативно сказывается на качестве решений, особенно в области клинического мониторинга и управления здоровьем планеты. Существуют многочисленные попытки улучшить калибровку уверенности, но они часто ограничиваются только тест-тайм скалированием. Наша мотивация заключается в изучении, насколько вкладываемость и логическая работа моделей влияют на калибровку уверенности, а также в поиске новых подходов, которые могут позволить значительно улучшить показатели калибровки. ## Метод Мы использовали данные ClimateX (Lacombe et al., 2023) для оценки калибровки уверенности, расширив датасет на области здоровья людей и планеты. Мы провели эксперименты с моделями Reasoning LLMs, предлагая ими различные уровни бюджета рассуждений. Для сравнения, мы также оценили подходы, основанные на поиске игенгенерации. Методология включала в себя сравнение точности калибровки уверенности в зависимости от различных моделей и интенсивности рассуждений. Мы также исследовали влияние внедрения дополнительных ресурсов, таких как семантический поиск и контекстное восстановление. ## Результаты Наши эксперименты показали, что 48.7% процентов точности калибровки уверенности моделей Reasoning LLMs в нашей исследовательской среде. Однако, увеличение бюджета для рассуждений приводит к значительному ухудшению калибровки уверенности, а не к его улучшению. Модели, основанные на поиске и игенгенерации, показали более высокую точность, достигнув 89.3%, примерно. Этот результат подтверждает, что доступ к информации, а не глубина рассуждений или бюджет рассуждений, является критичным фактором для улучшения калибровки уверенности в знаний-интенсивных задачах. Мы также отметили, что повышение бюджета рассуждений приводит к систематическому преувеличению уверенности, которое только ухудшается при длительных бюджетах. ## Значимость Наши результаты имеют значительное значение для области калибровки уверенности в LLMs. Они показывают, что доступ к информации и семантический поиск могут значительно улучшить калибровку уверенности, даже при меньшем бюджете рассуждений. Эти подходы могут быть применены в различных областях, включая клинический мониторинг и управление здоровьем планеты, где точность и уверенность решений к

Abstract

Large Language Models deployed as question answering tools require robust calibration to avoid overconfidence. We systematically evaluate how reasoning capabilities and budget affect confidence assessment accuracy, using the ClimateX dataset (Lacombe et al., 2023) and expanding it to human and planetary health. Our key finding challenges the "test-time scaling" paradigm: while recent reasoning LLMs achieve 48.7% accuracy in assessing expert confidence, increasing reasoning budgets consistently impairs rather than improves calibration. Extended reasoning leads to systematic overconfidence that worsens with longer thinking budgets, producing diminishing and negative returns beyond modest computational investments. Conversely, search-augmented generation dramatically outperforms pure reasoning, achieving 89.3% accuracy by retrieving relevant evidence. Our results suggest that information access, rather than reasoning depth or inference budget, may be the critical bottleneck for improved confidence calibration of knowledge-intensive tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Don't Think Twice! Over-Reasoning Impairs Confidence Calibration

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Algorithmic Thinking Theory

From Atomic to Composite: Reinforcement Learning Enables Generalization in Compl...

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Ches...

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human L...

Навигация