Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

2509.01455v1 cs.CL, 68T50, I.2.7 2025-09-05
Авторы:

Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

Резюме на русском

## Контекст В современном мире развитие интеллектуальных технологий приводит к появлению моделей языка, которые становятся все более надежными и мощными. Однако существуют серьезные проблемы, связанные с отсутствием доверия к решениям моделей в ситуациях неопределенности. Это приводит к ошибочным выводам и ухудшению удовлетворенности пользователей. Большинство существующих подходов к управлению неопределенностью в текстовых моделях ориентированы на выбор между ответом и отказом, но не обеспечивают гарантий качества или не учитывают разнообразия источников неопределенности. Необходимо разработать новую методологию, которая объединит различные источники неопределенности и обеспечит качественные решения в любых ситуациях. ## Метод Разработанный UniCR-фреймворк (Unified Confidence and Refusal) предлагает совместить различные источники неопределенности, такие как последовательность вероятностей, дисперсия самоконсистентности, совместимость с поиском и отзывы инструментов или верификации, в единую модель. Метод использует легковесную модель калибровки, основанную на температурном масштабировании, для преобразования неопределенности в классификатор вероятности. Он поддерживает API-только модели через черно-блочные признаки и обеспечивает эффективную обработку неопределенности, используя строгие гарантии соответствия. Для улучшения качества ответов в задачах долгого текста, таких как расширенный поиск, фреймворк вырабатывает гибкую стратегию сбора доказательств для вычисления вероятности того, что ответ верен. ## Результаты Запущенные эксперименты покрыли три области: короткие запросы к знаниям, генерацию кода с возможностью выполнения и расширенный рассуждающий поиск с использованием инструментов. Модель UniCR показала значительные улучшения по метрикам калибровки, снизив значение "положительной" ошибки (ответ на неверный вопрос) до 12%, что значительно превышает показатели других подходов, таких как логит-пороги или пост-хок-калибровщики. Благодаря инновационной стратегии объединения различных источников неопределенности модель обеспечивает высокую точность и качественное управление риском в различных сценариях. ## Значимость Разработанный подход может быть применен в различных областях, где важно управление неопределенностью, например, в работе с юридическими документами, медицинским анализом или управлении рисками в финансовых системах. UniCR обеспечивает пользователям высокую достоверность, снижает риск ошибок и в то же время позволяет полностью использовать мощь моделей языка. Его универсальная архитектура поз

Abstract

Deployed language models must decide not only what to answer but also when not to answer. We present UniCR, a unified framework that turns heterogeneous uncertainty evidence including sequence likelihoods, self-consistency dispersion, retrieval compatibility, and tool or verifier feedback into a calibrated probability of correctness and then enforces a user-specified error budget via principled refusal. UniCR learns a lightweight calibration head with temperature scaling and proper scoring, supports API-only models through black-box features, and offers distribution-free guarantees using conformal risk control. For long-form generation, we align confidence with semantic fidelity by supervising on atomic factuality scores derived from retrieved evidence, reducing confident hallucinations while preserving coverage. Experiments on short-form QA, code generation with execution tests, and retrieval-augmented long-form QA show consistent improvements in calibration metrics, lower area under the risk-coverage curve, and higher coverage at fixed risk compared to entropy or logit thresholds, post-hoc calibrators, and end-to-end selective baselines. Analyses reveal that evidence contradiction, semantic dispersion, and tool inconsistency are the dominant drivers of abstention, yielding informative user-facing refusal messages. The result is a portable recipe of evidence fusion to calibrated probability to risk-controlled decision that improves trustworthiness without fine-tuning the base model and remains valid under distribution shift.

Ссылки и действия

Связанные статьи

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexit...

------------------------------------------------------ ## Контекст -----------------------------------------------------...

2025-09-25

Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

## Контекст Область исследования, известная как Computational Linguistics (CL) или языковой моделирование, занимается ра...

2025-09-25

Quantifying Self-Awareness of Knowledge in Large Language Models

## Контекст Современные большие языковые модели (LLMs) представляют собой мощные инструменты, способные выполнять широки...

2025-09-23

Testing the assumptions about the geometry of sentence embedding spaces: the cos...

## Контекст Основной контекст данного исследования заключается в оценке предположений о геометрии пространств слов и пре...

2025-09-05