Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models

2508.08204v1 cs.CL, cs.AI 2025-08-13
Авторы:

Kyle Moore, Jesse Roberts, Daryl Watson

Резюме на русском

## Контекст Большие языковые модели (LLM) широко используются в сфере компьютерного зрения, научных исследований, трансляции языка, написания кода и других областях. Однако, несмотря на их мощь, эти модели часто сталкиваются с проблемами каллибровки неопределенности, что может привести к потерям доверия пользователей. Необходимость улучшения каллибровки неопределенности во время инференса (inference-time uncertainty calibration) возникла в связи с желанием улучшить удобство использования моделей для пользователей и сделать их более надежными. Несмотря на то, что многие исследования фокусируются на каллибровке моделей, меньшее внимание уделялось оценке того, насколько же сильно неопределенность моделей соответствует неопределенности, проявляемой людьми. В данной работе мы проводим оценку различных мер неопределенности во время инференса, используя как стандартные метрики, так и новые варианты, чтобы определить, насколько эти меры соответствуют как групповой неопределенности людей, так и классическим понятиям каллибровки моделей. ## Метод Мы использовали ряд метрик неопределенности, таких как Variation Ratio, Brier Score, log-likelihood, ECE (Expected Calibration Error), а также новые метрики, такие как Human Group Uncertainty Alignment (HGUA) и Human-Model Calibration Mismatch (HMCM). Эти метрики оценивались на основе групповых ответов с использованием специально подобранного набора данных, который включал в себя живые диалоги и задачи, требующие множественных шагов. Мы также проводили сравнение этих метрик с классическими показателями каллибровки, такими как ECE и Negative Log-Likelihood (NLL). Кроме того, мы проанализировали соответствие неопределенности моделей к структуре ответов человека, чтобы определить, насколько модели правильно "понимают" неопределенность. ## Результаты Наши эксперименты показали, что некоторые метрики неопределенности, такие как log-likelihood и HGUA, демонстрируют сильное соответствие неопределенности моделей и групповой неопределенности людей. В то же время, эти метрики не всегда хорошо коррелируют с классическими показателями каллибровки, такими как ECE. Например, HGUA показала сильное соответствие неопределенности моделей с неопределенностью людей, но не всегда соответствовала традиционным метрикам каллибровки. Мы также обнаружили, что некоторые модели при оценке неопределенности могут давать более точные результаты, чем при оценке классических показателей каллибровки. ## Значимость Наши результаты имеют важное значение для области применения бо LLM в реальных ситуациях, таких как принятие решений, контроль над моделями и пользовательский опыт. Мы показали, что некоторые меры неопределенности могут бы

Abstract

There has been much recent interest in evaluating large language models for uncertainty calibration to facilitate model control and modulate user trust. Inference time uncertainty, which may provide a real-time signal to the model or external control modules, is particularly important for applying these concepts to improve LLM-user experience in practice. While many of the existing papers consider model calibration, comparatively little work has sought to evaluate how closely model uncertainty aligns to human uncertainty. In this work, we evaluate a collection of inference-time uncertainty measures, using both established metrics and novel variations, to determine how closely they align with both human group-level uncertainty and traditional notions of model calibration. We find that numerous measures show evidence of strong alignment to human uncertainty, even despite the lack of alignment to human answer preference. For those successful metrics, we find moderate to strong evidence of model calibration in terms of both correctness correlation and distributional analysis.

Ссылки и действия