ConfTuner: Training Large Language Models to Express Their Confidence Verbally

2508.18847v1 cs.CL, cs.AI 2025-08-28
Авторы:

Yibo Li, Miao Xiong, Jiaying Wu, Bryan Hooi

Резюме на русском

#### Контекст Large Language Models (LLMs) находят широкое применение в высокорисковых областях, таких как наука, закон и медицина, где точное выражение неопределенности крайне важно для доверия и надежности решений. Однако LLMs часто ошибаются с высокой уверенностью в своих ответах — этот эффект называется "overconfidence". Несмотря на то, что ранее были предложены методы для калибровки выраженной уверенности LLMs, они имеют ограниченную эффективность и гибкость. Мы предлагаем ConfTuner — метод, который использует простой штрафный функционал на основе Brier score и не требует дополнительных данных для обучения. #### Метод ConfTuner основан на представлении токенов в LLM-моделях. Мы предлагаем новый штрафный функционал, расширенный Brier score, который мы доказываем быть "точным" scoring rule — функционалом, который корректно выгодствует модели за корректное выражение достоверности. Обучение происходит в рамках предложенной архитектуры, не требуя дополнительных данных для калибровки. Метод применяется к различным типам рассуждений и продемонстрирован на различных моделях, включая GPT-4o. #### Результаты Мы проводим эксперименты с различными данными и задачами, включая задачи рассуждения и упражнения на самокоррекции. Улучшенная калибровка ConfTuner позволяет моделям надёжнее оценивать свою достоверность и применяться в модельных цепочках. Мы также показываем, что ConfTuner значительно улучшает калибровку LLMs на различных тестовых наборах, включая топ-LLM-модели. #### Значимость ConfTuner может быть применен в любых сценариях, где нужно доверять выраженной достоверности LLM-ответов. Он отличается широкой областью применения — от моделей самокоррекции до модельных систем для решения задач. Наши результаты показывают, что ConfTuner позволяет LLM-моделям более точно выражать свою достоверность и делать более надежные решения. #### Выводы ConfTuner доказывает, что новый подход к калибровке достоверности LLMs может быть эффективным применением для обеспечения надежности и улучшения решений. Мы планируем расширить исследования на многомодельные системы и исследовать дальнейшие способы улучшения калибровки LLMs.

Abstract

Large Language Models (LLMs) are increasingly deployed in high-stakes domains such as science, law, and healthcare, where accurate expressions of uncertainty are essential for reliability and trust. However, current LLMs are often observed to generate incorrect answers with high confidence, a phenomenon known as "overconfidence". Recent efforts have focused on calibrating LLMs' verbalized confidence: i.e., their expressions of confidence in text form, such as "I am 80% confident that...". Existing approaches either rely on prompt engineering or fine-tuning with heuristically generated uncertainty estimates, both of which have limited effectiveness and generalizability. Motivated by the notion of proper scoring rules for calibration in classical machine learning models, we introduce ConfTuner, a simple and efficient fine-tuning method that introduces minimal overhead and does not require ground-truth confidence scores or proxy confidence estimates. ConfTuner relies on a new loss function, tokenized Brier score, which we theoretically prove to be a proper scoring rule, intuitively meaning that it "correctly incentivizes the model to report its true probability of being correct". ConfTuner improves calibration across diverse reasoning tasks and generalizes to black-box models such as GPT-4o. Our results further show that better-calibrated confidence enables downstream gains in self-correction and model cascade, advancing the development of trustworthy LLM systems. The code is available at https://github.com/liushiliushi/ConfTuner.

Ссылки и действия