Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models
2508.08139v1
cs.CL, cs.AI
2025-08-13
Авторы:
Tianyi Zhou, Johanne Medina, Sanjay Chawla
Резюме на русском
#### Контекст
Large Language Models (LLMs) широко используются в различных сферах, от поиска информации до автоматизации диалогов. Однако они часто склонны генерировать ответы, которые выглядят надежными, но на самом деле содержат неточности и даже расплывчатые или непонятные факты. Такие ответы, известные как "confabulations", могут привести к серьезным последствиям, особенно в сценариях, где LLM используется в качестве агента или решает повторно использовать свои собственные ответы в качестве входных данных. Эта статья рассматривает проблему confabulation и исследует, могут ли LLMs определять, когда их ответы недостоверны. Такой подход к оценке надежности может стать ключевым для улучшения надежности LLM в различных приложениях.
#### Метод
Для оценки надежности ответов LLMs авторы предлагают метод, основанный на использовании неопределенности (uncertainty) на уровне токенов. Он состоит из двух компонент: "алеаторная" неопределенность, связанная с случайностью ответа, и "эпистемная" неопределенность, связанная с неоднозначностью входных данных. Алгоритм работает следующим образом: он извлекает неопределенность из выходных логитов модели, используя эти сигналы для выделения важных токенов в ответе. Затем эти токены объединяются в сжатые представления, позволяющие оценить надежность ответа целиком. Эта техника позволяет не только выявлять неточности, но и понять, какие части ответа являются надежными.
#### Результаты
В экспериментах, проведенных на различных бенчмарках открытого вопроса-ответа (Open Question Answering, Open QA), авторы проверили, как влияет входная информация на поведение модели. Оказалось, что корректная информация в контексте значительно повышает точность ответов и уверенность модели. Однако некорректная или заблудливая информация может вызвать сильно неверные ответы, которые LLM дает с высоким уровнем уверенности. Это показывает, что некоторые неточности могут быть очень опасными, потому что модель не всегда понимает, что ответ неверный. Метод, предложенный в статье, позволяет вносить усовершенствования в системы, обнаруживающие такие неточности.
#### Значимость
На практике этот подход может быть применим в различных сферах, где надежность ответов критична, таких как клиентская служба, медицина и юридические приложения. Основное преимущество метода заключается в том, что он использует внутренние сигналы модели для определения неточностей без дополнительных внешних данных. Это может повысить эффективность систем, которые борются с недостоверными ответами. В будущем можно рассмотреть расширение этого метода на другие типы моделей и приложений, где надежность имеет высокий при
Abstract
Large Language Models (LLMs) are prone to generating fluent but incorrect
content, known as confabulation, which poses increasing risks in multi-turn or
agentic applications where outputs may be reused as context. In this work, we
investigate how in-context information influences model behavior and whether
LLMs can identify their unreliable responses. We propose a reliability
estimation that leverages token-level uncertainty to guide the aggregation of
internal model representations. Specifically, we compute aleatoric and
epistemic uncertainty from output logits to identify salient tokens and
aggregate their hidden states into compact representations for response-level
reliability prediction. Through controlled experiments on open QA benchmarks,
we find that correct in-context information improves both answer accuracy and
model confidence, while misleading context often induces confidently incorrect
responses, revealing a misalignment between uncertainty and correctness. Our
probing-based method captures these shifts in model behavior and improves the
detection of unreliable outputs across multiple open-source LLMs. These results
underscore the limitations of direct uncertainty signals and highlight the
potential of uncertainty-guided probing for reliability-aware generation.
Ссылки и действия
Дополнительные ресурсы: