Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models

2508.08139v1 cs.CL, cs.AI 2025-08-13
Авторы:

Tianyi Zhou, Johanne Medina, Sanjay Chawla

Резюме на русском

#### Контекст Large Language Models (LLMs) широко используются в различных сферах, от поиска информации до автоматизации диалогов. Однако они часто склонны генерировать ответы, которые выглядят надежными, но на самом деле содержат неточности и даже расплывчатые или непонятные факты. Такие ответы, известные как "confabulations", могут привести к серьезным последствиям, особенно в сценариях, где LLM используется в качестве агента или решает повторно использовать свои собственные ответы в качестве входных данных. Эта статья рассматривает проблему confabulation и исследует, могут ли LLMs определять, когда их ответы недостоверны. Такой подход к оценке надежности может стать ключевым для улучшения надежности LLM в различных приложениях. #### Метод Для оценки надежности ответов LLMs авторы предлагают метод, основанный на использовании неопределенности (uncertainty) на уровне токенов. Он состоит из двух компонент: "алеаторная" неопределенность, связанная с случайностью ответа, и "эпистемная" неопределенность, связанная с неоднозначностью входных данных. Алгоритм работает следующим образом: он извлекает неопределенность из выходных логитов модели, используя эти сигналы для выделения важных токенов в ответе. Затем эти токены объединяются в сжатые представления, позволяющие оценить надежность ответа целиком. Эта техника позволяет не только выявлять неточности, но и понять, какие части ответа являются надежными. #### Результаты В экспериментах, проведенных на различных бенчмарках открытого вопроса-ответа (Open Question Answering, Open QA), авторы проверили, как влияет входная информация на поведение модели. Оказалось, что корректная информация в контексте значительно повышает точность ответов и уверенность модели. Однако некорректная или заблудливая информация может вызвать сильно неверные ответы, которые LLM дает с высоким уровнем уверенности. Это показывает, что некоторые неточности могут быть очень опасными, потому что модель не всегда понимает, что ответ неверный. Метод, предложенный в статье, позволяет вносить усовершенствования в системы, обнаруживающие такие неточности. #### Значимость На практике этот подход может быть применим в различных сферах, где надежность ответов критична, таких как клиентская служба, медицина и юридические приложения. Основное преимущество метода заключается в том, что он использует внутренние сигналы модели для определения неточностей без дополнительных внешних данных. Это может повысить эффективность систем, которые борются с недостоверными ответами. В будущем можно рассмотреть расширение этого метода на другие типы моделей и приложений, где надежность имеет высокий при

Abstract

Large Language Models (LLMs) are prone to generating fluent but incorrect content, known as confabulation, which poses increasing risks in multi-turn or agentic applications where outputs may be reused as context. In this work, we investigate how in-context information influences model behavior and whether LLMs can identify their unreliable responses. We propose a reliability estimation that leverages token-level uncertainty to guide the aggregation of internal model representations. Specifically, we compute aleatoric and epistemic uncertainty from output logits to identify salient tokens and aggregate their hidden states into compact representations for response-level reliability prediction. Through controlled experiments on open QA benchmarks, we find that correct in-context information improves both answer accuracy and model confidence, while misleading context often induces confidently incorrect responses, revealing a misalignment between uncertainty and correctness. Our probing-based method captures these shifts in model behavior and improves the detection of unreliable outputs across multiple open-source LLMs. These results underscore the limitations of direct uncertainty signals and highlight the potential of uncertainty-guided probing for reliability-aware generation.

Ссылки и действия