Estimating Semantic Alphabet Size for LLM Uncertainty Quantification
2509.14478v1
cs.CL, cs.LG
2025-09-20
Авторы:
Lucas H. McCabe, Rimon Melamed, Thomas Hartvigsen, H. Howie Huang
Резюме на русском
## Контекст
Многочисленные методы для оценки неуверенности в больших языковых моделях (LLM) основываются на многократном генерировании текстов моделью, что может требовать бОльших вычислительных ресурсов. Это ставит перед разработчиками задачу оптимизации процесса с учетом ресурсоемкости технических решений. Одной из популярных метрик для оценки неуверенности является энтропия семантики (SE), которая использует текстовые данные в виде массивов. Несмотря на простоту ее алгоритмической реализации, эта метрика часто недооценивает "истинную" неуверенность. Также существуют расширения SE, которые улучшают подсчет неуверенности, но накладывают дополнительные требования по настройке и включают дополнительные параметры. Целью данной работы является возвращение к традиционному подходу, с учетом улучшений, и продвижение его в области повышения точности оценки неуверенности больших языковых моделей.
## Метод
Мы решили вернуться к основному подходу в оценке семантической энтропии (SE), основываясь на традиционном алгоритме, но исправив неточности в его реализации. Метод состоит в том, чтобы поправить расчет семантической энтропии, учитывая количество для обработки доступных текстовых данных. Также мы развивали подход, который используется для определения "порога" неточности в ответах модели. Этот подход позволяет корректно определять неточности в выдаче модели, оценивая их относительно логических правил. Наш подход включает не только улучшение семантической энтропии, но и поддержание её легкости и читаемости.
## Результаты
Мы провели серию экспериментов с различными текстовыми данными и моделями языковых моделей. Мы сравнивали наши результаты с имеющимися методами оценки неуверенности. Таким образом, мы показали, что наш подход позволяет более точно оценивать неуверенность, особенно при небольших выборках. Мы также проверили, насколько наш подход может правильно определять неточности в выдаче моделей, и сравнили его с другими подходами, находя выигрыш в точности и интерпретируемости.
## Значимость
Наш подход имеет широкие применения в области оценки неуверенности в текстовых моделях и помогает улучшить их работу в ситуациях с ограниченными выборками. Он позволяет более точно оценивать неуверенность в ответах моделей, что может привести к бОльшей надежности и качеству результатов. Это также может привести к повышению удобства использования моделей в реальных приложениях. Мы также отметили, что наша модель легко интегрируется в существующие системы и не требует дополнительных ресурсов.
## Выводы
Мы доказали, что наш подход к оц
Abstract
Many black-box techniques for quantifying the uncertainty of large language
models (LLMs) rely on repeated LLM sampling, which can be computationally
expensive. Therefore, practical applicability demands reliable estimation from
few samples. Semantic entropy (SE) is a popular sample-based uncertainty
estimator with a discrete formulation attractive for the black-box setting.
Recent extensions of semantic entropy exhibit improved LLM hallucination
detection, but do so with less interpretable methods that admit additional
hyperparameters. For this reason, we revisit the canonical discrete semantic
entropy estimator, finding that it underestimates the "true" semantic entropy,
as expected from theory. We propose a modified semantic alphabet size
estimator, and illustrate that using it to adjust discrete semantic entropy for
sample coverage results in more accurate semantic entropy estimation in our
setting of interest. Furthermore, our proposed alphabet size estimator flags
incorrect LLM responses as well or better than recent top-performing
approaches, with the added benefit of remaining highly interpretable.
Ссылки и действия
Дополнительные ресурсы: