Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models
2508.08204v1
cs.CL, cs.AI
2025-08-13
Авторы:
Kyle Moore, Jesse Roberts, Daryl Watson
Резюме на русском
## Контекст
Большие языковые модели (LLM) широко используются в сфере компьютерного зрения, научных исследований, трансляции языка, написания кода и других областях. Однако, несмотря на их мощь, эти модели часто сталкиваются с проблемами каллибровки неопределенности, что может привести к потерям доверия пользователей. Необходимость улучшения каллибровки неопределенности во время инференса (inference-time uncertainty calibration) возникла в связи с желанием улучшить удобство использования моделей для пользователей и сделать их более надежными. Несмотря на то, что многие исследования фокусируются на каллибровке моделей, меньшее внимание уделялось оценке того, насколько же сильно неопределенность моделей соответствует неопределенности, проявляемой людьми. В данной работе мы проводим оценку различных мер неопределенности во время инференса, используя как стандартные метрики, так и новые варианты, чтобы определить, насколько эти меры соответствуют как групповой неопределенности людей, так и классическим понятиям каллибровки моделей.
## Метод
Мы использовали ряд метрик неопределенности, таких как Variation Ratio, Brier Score, log-likelihood, ECE (Expected Calibration Error), а также новые метрики, такие как Human Group Uncertainty Alignment (HGUA) и Human-Model Calibration Mismatch (HMCM). Эти метрики оценивались на основе групповых ответов с использованием специально подобранного набора данных, который включал в себя живые диалоги и задачи, требующие множественных шагов. Мы также проводили сравнение этих метрик с классическими показателями каллибровки, такими как ECE и Negative Log-Likelihood (NLL). Кроме того, мы проанализировали соответствие неопределенности моделей к структуре ответов человека, чтобы определить, насколько модели правильно "понимают" неопределенность.
## Результаты
Наши эксперименты показали, что некоторые метрики неопределенности, такие как log-likelihood и HGUA, демонстрируют сильное соответствие неопределенности моделей и групповой неопределенности людей. В то же время, эти метрики не всегда хорошо коррелируют с классическими показателями каллибровки, такими как ECE. Например, HGUA показала сильное соответствие неопределенности моделей с неопределенностью людей, но не всегда соответствовала традиционным метрикам каллибровки. Мы также обнаружили, что некоторые модели при оценке неопределенности могут давать более точные результаты, чем при оценке классических показателей каллибровки.
## Значимость
Наши результаты имеют важное значение для области применения бо LLM в реальных ситуациях, таких как принятие решений, контроль над моделями и пользовательский опыт. Мы показали, что некоторые меры неопределенности могут бы
Abstract
There has been much recent interest in evaluating large language models for
uncertainty calibration to facilitate model control and modulate user trust.
Inference time uncertainty, which may provide a real-time signal to the model
or external control modules, is particularly important for applying these
concepts to improve LLM-user experience in practice. While many of the existing
papers consider model calibration, comparatively little work has sought to
evaluate how closely model uncertainty aligns to human uncertainty. In this
work, we evaluate a collection of inference-time uncertainty measures, using
both established metrics and novel variations, to determine how closely they
align with both human group-level uncertainty and traditional notions of model
calibration. We find that numerous measures show evidence of strong alignment
to human uncertainty, even despite the lack of alignment to human answer
preference. For those successful metrics, we find moderate to strong evidence
of model calibration in terms of both correctness correlation and
distributional analysis.
Ссылки и действия
Дополнительные ресурсы: