## Контекст
Большие языковые модели (LLM) широко используются в сфере компьютерного зрения, научных исследований, трансляции языка, написания кода и других областях. Однако, несмотря на их мощь, эти модели часто сталкиваются с проблемами каллибровки неопределенности, что может привести к потерям доверия пользователей. Необходимость улучшения каллибровки неопределенности во время инференса (inference-time uncertainty calibration) возникла в связи с желанием улучшить удобство использования моделей для пользователей и сделать их более надежными. Несмотря на то, что многие исследования фокусируются на каллибровке моделей, меньшее внимание уделялось оценке того, насколько же сильно неопределенность моделей соответствует неопределенности, проявляемой людьми. В данной работе мы проводим оценку различных мер неопределенности во время инференса, используя как стандартные метрики, так и новые варианты, чтобы определить, насколько эти меры соответствуют как групповой неопределенности людей, так и классическим понятиям каллибровки моделей.
## Метод
Мы использовали ряд метрик неопределенности, таких как Variation Ratio, Brier Score, log-likelihood, ECE (Expected Calibration Error), а также новые метрики, такие как Human Group Uncertainty Alignment (HGUA) и Human-Model Calibration Mismatch (HMCM). Эти метрики оценивались на основе групповых ответов с использованием специально подобранного набора данных, который включал в себя живые диалоги и задачи, требующие множественных шагов. Мы также проводили сравнение этих метрик с классическими показателями каллибровки, такими как ECE и Negative Log-Likelihood (NLL). Кроме того, мы проанализировали соответствие неопределенности моделей к структуре ответов человека, чтобы определить, насколько модели правильно "понимают" неопределенность.
## Результаты
Наши эксперименты показали, что некоторые метрики неопределенности, такие как log-likelihood и HGUA, демонстрируют сильное соответствие неопределенности моделей и групповой неопределенности людей. В то же время, эти метрики не всегда хорошо коррелируют с классическими показателями каллибровки, такими как ECE. Например, HGUA показала сильное соответствие неопределенности моделей с неопределенностью людей, но не всегда соответствовала традиционным метрикам каллибровки. Мы также обнаружили, что некоторые модели при оценке неопределенности могут давать более точные результаты, чем при оценке классических показателей каллибровки.
## Значимость
Наши результаты имеют важное значение для области применения бо LLM в реальных ситуациях, таких как принятие решений, контроль над моделями и пользовательский опыт. Мы показали, что некоторые меры неопределенности могут бы