ConfTuner: Training Large Language Models to Express Their Confidence Verbally
2508.18847v1
cs.CL, cs.AI
2025-08-28
Авторы:
Yibo Li, Miao Xiong, Jiaying Wu, Bryan Hooi
Резюме на русском
#### Контекст
Large Language Models (LLMs) находят широкое применение в высокорисковых областях, таких как наука, закон и медицина, где точное выражение неопределенности крайне важно для доверия и надежности решений. Однако LLMs часто ошибаются с высокой уверенностью в своих ответах — этот эффект называется "overconfidence". Несмотря на то, что ранее были предложены методы для калибровки выраженной уверенности LLMs, они имеют ограниченную эффективность и гибкость. Мы предлагаем ConfTuner — метод, который использует простой штрафный функционал на основе Brier score и не требует дополнительных данных для обучения.
#### Метод
ConfTuner основан на представлении токенов в LLM-моделях. Мы предлагаем новый штрафный функционал, расширенный Brier score, который мы доказываем быть "точным" scoring rule — функционалом, который корректно выгодствует модели за корректное выражение достоверности. Обучение происходит в рамках предложенной архитектуры, не требуя дополнительных данных для калибровки. Метод применяется к различным типам рассуждений и продемонстрирован на различных моделях, включая GPT-4o.
#### Результаты
Мы проводим эксперименты с различными данными и задачами, включая задачи рассуждения и упражнения на самокоррекции. Улучшенная калибровка ConfTuner позволяет моделям надёжнее оценивать свою достоверность и применяться в модельных цепочках. Мы также показываем, что ConfTuner значительно улучшает калибровку LLMs на различных тестовых наборах, включая топ-LLM-модели.
#### Значимость
ConfTuner может быть применен в любых сценариях, где нужно доверять выраженной достоверности LLM-ответов. Он отличается широкой областью применения — от моделей самокоррекции до модельных систем для решения задач. Наши результаты показывают, что ConfTuner позволяет LLM-моделям более точно выражать свою достоверность и делать более надежные решения.
#### Выводы
ConfTuner доказывает, что новый подход к калибровке достоверности LLMs может быть эффективным применением для обеспечения надежности и улучшения решений. Мы планируем расширить исследования на многомодельные системы и исследовать дальнейшие способы улучшения калибровки LLMs.
Abstract
Large Language Models (LLMs) are increasingly deployed in high-stakes domains
such as science, law, and healthcare, where accurate expressions of uncertainty
are essential for reliability and trust. However, current LLMs are often
observed to generate incorrect answers with high confidence, a phenomenon known
as "overconfidence". Recent efforts have focused on calibrating LLMs'
verbalized confidence: i.e., their expressions of confidence in text form, such
as "I am 80% confident that...". Existing approaches either rely on prompt
engineering or fine-tuning with heuristically generated uncertainty estimates,
both of which have limited effectiveness and generalizability. Motivated by the
notion of proper scoring rules for calibration in classical machine learning
models, we introduce ConfTuner, a simple and efficient fine-tuning method that
introduces minimal overhead and does not require ground-truth confidence scores
or proxy confidence estimates. ConfTuner relies on a new loss function,
tokenized Brier score, which we theoretically prove to be a proper scoring
rule, intuitively meaning that it "correctly incentivizes the model to report
its true probability of being correct". ConfTuner improves calibration across
diverse reasoning tasks and generalizes to black-box models such as GPT-4o. Our
results further show that better-calibrated confidence enables downstream gains
in self-correction and model cascade, advancing the development of trustworthy
LLM systems. The code is available at
https://github.com/liushiliushi/ConfTuner.
Ссылки и действия
Дополнительные ресурсы: