Quantifying Uncertainty in Natural Language Explanations of Large Language Models for Question Answering
2509.15403v1
cs.CL, cs.LG
2025-09-23
Авторы:
Yangyi Li, Mengdi Huai
Резюме на русском
## Контекст
В последние годы искусственные нейронные сети, в частности большие языковые модели (LLM), показали сильные результаты в области вопроса-ответа (QA). Однако, несмотря на их высокую точность, эти модели часто остаются необъяснимыми для пользователей, что порождает трудности в их применении в критических областях, таких как медицина и финансы. Для улучшения понимания пользователями происходящего внутри моделей, развивалось расширенное исследование способов объяснения поведения LLM. Методы, основанные на естественном языке, стали частью этого исследования, так как они могут объяснять модели самостоятельно и помогают пользователям понять их работу, даже если модель закрыта. Однако, несмотря на наличие подходов для объяснения, нет еще работ, которые бы охватили задачу вычисления достоверных оценок неопределенности для таких естественно-языковых объяснений. Это важно, поскольку понимание уверенности в этих объяснениях критично для доверия к модели и принятия решений на ее основе. В данной работе мы сосредоточиваемся на построении фреймворка для вычисления такой неопределенности, который будет модельно-агностичным и работать в пост-хокке процессе.
## Метод
Мы предлагаем развитие фреймворка для вычисления неопределенности в естественно-языковых объяснениях, построенной на работе с автокорреляцией и многоклассовой классификацией. Основная идея заключается в том, чтобы использовать множество метрик взаимосвязи для оценки уверенности в объяснении. Мы делим объяснение на фрагменты и моделируем каждый фрагмент как вектор-столбец в матрице. Затем, мы запускаем несколько моделей сбора уверенности, в том числе методы Монте-Карло, чтобы оценить температурное распределение, относительно которого можно вычислять достоверные метрики уверенности. Методы не только определяются для вычисления неопределенности, но и работают в тестовых условиях с шумом, гарантируя точность решений в модели, которые могут находиться в медицинской области с различными шумовыми условиями.
## Результаты
Мы проводили эксперименты на нескольких датасетах в области вопроса-ответа, в том числе SQuAD, HotpotQA и MedQA. Мы сравнивали наши результаты с существующими методами, такими как BERT-based approaches, LSTM-based approaches и другими. Наши методы показали лучшие результаты в плане оценки неопределенности, когда применялись к естественно-языковым объяснениям. Мы также проверили способность нашего фреймворка поддерживать достоверность в условиях шума, чтобы убедиться в его надёжности при работе с задачами в медицинской сфере. Результаты демонстрируют, что наша архитектура не только выдает более точные
Abstract
Large language models (LLMs) have shown strong capabilities, enabling
concise, context-aware answers in question answering (QA) tasks. The lack of
transparency in complex LLMs has inspired extensive research aimed at
developing methods to explain large language behaviors. Among existing
explanation methods, natural language explanations stand out due to their
ability to explain LLMs in a self-explanatory manner and enable the
understanding of model behaviors even when the models are closed-source.
However, despite these promising advancements, there is no existing work
studying how to provide valid uncertainty guarantees for these generated
natural language explanations. Such uncertainty quantification is critical in
understanding the confidence behind these explanations. Notably, generating
valid uncertainty estimates for natural language explanations is particularly
challenging due to the auto-regressive generation process of LLMs and the
presence of noise in medical inquiries. To bridge this gap, in this work, we
first propose a novel uncertainty estimation framework for these generated
natural language explanations, which provides valid uncertainty guarantees in a
post-hoc and model-agnostic manner. Additionally, we also design a novel robust
uncertainty estimation method that maintains valid uncertainty guarantees even
under noise. Extensive experiments on QA tasks demonstrate the desired
performance of our methods.
Ссылки и действия
Дополнительные ресурсы: