Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

2509.14478v1 cs.CL, cs.LG 2025-09-20

Авторы:

Lucas H. McCabe, Rimon Melamed, Thomas Hartvigsen, H. Howie Huang

Резюме на русском

## Контекст Многочисленные методы для оценки неуверенности в больших языковых моделях (LLM) основываются на многократном генерировании текстов моделью, что может требовать бОльших вычислительных ресурсов. Это ставит перед разработчиками задачу оптимизации процесса с учетом ресурсоемкости технических решений. Одной из популярных метрик для оценки неуверенности является энтропия семантики (SE), которая использует текстовые данные в виде массивов. Несмотря на простоту ее алгоритмической реализации, эта метрика часто недооценивает "истинную" неуверенность. Также существуют расширения SE, которые улучшают подсчет неуверенности, но накладывают дополнительные требования по настройке и включают дополнительные параметры. Целью данной работы является возвращение к традиционному подходу, с учетом улучшений, и продвижение его в области повышения точности оценки неуверенности больших языковых моделей. ## Метод Мы решили вернуться к основному подходу в оценке семантической энтропии (SE), основываясь на традиционном алгоритме, но исправив неточности в его реализации. Метод состоит в том, чтобы поправить расчет семантической энтропии, учитывая количество для обработки доступных текстовых данных. Также мы развивали подход, который используется для определения "порога" неточности в ответах модели. Этот подход позволяет корректно определять неточности в выдаче модели, оценивая их относительно логических правил. Наш подход включает не только улучшение семантической энтропии, но и поддержание её легкости и читаемости. ## Результаты Мы провели серию экспериментов с различными текстовыми данными и моделями языковых моделей. Мы сравнивали наши результаты с имеющимися методами оценки неуверенности. Таким образом, мы показали, что наш подход позволяет более точно оценивать неуверенность, особенно при небольших выборках. Мы также проверили, насколько наш подход может правильно определять неточности в выдаче моделей, и сравнили его с другими подходами, находя выигрыш в точности и интерпретируемости. ## Значимость Наш подход имеет широкие применения в области оценки неуверенности в текстовых моделях и помогает улучшить их работу в ситуациях с ограниченными выборками. Он позволяет более точно оценивать неуверенность в ответах моделей, что может привести к бОльшей надежности и качеству результатов. Это также может привести к повышению удобства использования моделей в реальных приложениях. Мы также отметили, что наша модель легко интегрируется в существующие системы и не требует дополнительных ресурсов. ## Выводы Мы доказали, что наш подход к оц

Abstract

Many black-box techniques for quantifying the uncertainty of large language models (LLMs) rely on repeated LLM sampling, which can be computationally expensive. Therefore, practical applicability demands reliable estimation from few samples. Semantic entropy (SE) is a popular sample-based uncertainty estimator with a discrete formulation attractive for the black-box setting. Recent extensions of semantic entropy exhibit improved LLM hallucination detection, but do so with less interpretable methods that admit additional hyperparameters. For this reason, we revisit the canonical discrete semantic entropy estimator, finding that it underestimates the "true" semantic entropy, as expected from theory. We propose a modified semantic alphabet size estimator, and illustrate that using it to adjust discrete semantic entropy for sample coverage results in more accurate semantic entropy estimation in our setting of interest. Furthermore, our proposed alphabet size estimator flags incorrect LLM responses as well or better than recent top-performing approaches, with the added benefit of remaining highly interpretable.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация