Don't Think Twice! Over-Reasoning Impairs Confidence Calibration
2508.15050v1
cs.AI, cs.CL
2025-08-23
Авторы:
Romain Lacombe, Kerrie Wu, Eddie Dilworth
Резюме на русском
## Контекст
Одна из ключевых проблем в области знаний-интенсивных задач, таких как ответы на вопросы, является обеспечение точной калибровки уверенности. Несмотря на то, что текущие тест-тайм скалируемые модели языка (LLMs) показывают высокую точность в тестировании, они часто превращаются в значительное переоценивание своей уверенности. Это негативно сказывается на качестве решений, особенно в области клинического мониторинга и управления здоровьем планеты. Существуют многочисленные попытки улучшить калибровку уверенности, но они часто ограничиваются только тест-тайм скалированием. Наша мотивация заключается в изучении, насколько вкладываемость и логическая работа моделей влияют на калибровку уверенности, а также в поиске новых подходов, которые могут позволить значительно улучшить показатели калибровки.
## Метод
Мы использовали данные ClimateX (Lacombe et al., 2023) для оценки калибровки уверенности, расширив датасет на области здоровья людей и планеты. Мы провели эксперименты с моделями Reasoning LLMs, предлагая ими различные уровни бюджета рассуждений. Для сравнения, мы также оценили подходы, основанные на поиске игенгенерации. Методология включала в себя сравнение точности калибровки уверенности в зависимости от различных моделей и интенсивности рассуждений. Мы также исследовали влияние внедрения дополнительных ресурсов, таких как семантический поиск и контекстное восстановление.
## Результаты
Наши эксперименты показали, что 48.7% процентов точности калибровки уверенности моделей Reasoning LLMs в нашей исследовательской среде. Однако, увеличение бюджета для рассуждений приводит к значительному ухудшению калибровки уверенности, а не к его улучшению. Модели, основанные на поиске и игенгенерации, показали более высокую точность, достигнув 89.3%, примерно. Этот результат подтверждает, что доступ к информации, а не глубина рассуждений или бюджет рассуждений, является критичным фактором для улучшения калибровки уверенности в знаний-интенсивных задачах. Мы также отметили, что повышение бюджета рассуждений приводит к систематическому преувеличению уверенности, которое только ухудшается при длительных бюджетах.
## Значимость
Наши результаты имеют значительное значение для области калибровки уверенности в LLMs. Они показывают, что доступ к информации и семантический поиск могут значительно улучшить калибровку уверенности, даже при меньшем бюджете рассуждений. Эти подходы могут быть применены в различных областях, включая клинический мониторинг и управление здоровьем планеты, где точность и уверенность решений к
Abstract
Large Language Models deployed as question answering tools require robust
calibration to avoid overconfidence. We systematically evaluate how reasoning
capabilities and budget affect confidence assessment accuracy, using the
ClimateX dataset (Lacombe et al., 2023) and expanding it to human and planetary
health. Our key finding challenges the "test-time scaling" paradigm: while
recent reasoning LLMs achieve 48.7% accuracy in assessing expert confidence,
increasing reasoning budgets consistently impairs rather than improves
calibration. Extended reasoning leads to systematic overconfidence that worsens
with longer thinking budgets, producing diminishing and negative returns beyond
modest computational investments. Conversely, search-augmented generation
dramatically outperforms pure reasoning, achieving 89.3% accuracy by retrieving
relevant evidence. Our results suggest that information access, rather than
reasoning depth or inference budget, may be the critical bottleneck for
improved confidence calibration of knowledge-intensive tasks.
Ссылки и действия
Дополнительные ресурсы: