From Confidence to Collapse in LLM Factual Robustness

2508.16267v2 cs.CL, cs.AI 2025-08-27
Авторы:

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

Резюме на русском

## Контекст Область исследования связана с улучшением фактической надежности Large Language Models (LLMs). Несмотря на то, что LLMs проявляют великолепные результаты в задачах, таких как вопрос-ответ, они часто сталкиваются с проблемами фактической надежности. Это проявляется в неверных или неполных ответах при внесении изменений в входные данные или условия вывода. Такие проблемы могут привести к неудовлетворительному поведению в реальных сценариях, таких как создание ответов, конфликтующих с фактическими данными, или выдача неверных результатов. Данная статья определяет интерес к изучению фактической надежности LLMs для повышения надежности в задачах, таких как вопрос-ответ, и разработке эффективных методов для оценки и улучшения этого аспекта. ## Метод Разработанная методология основывается на измерении того, насколько фактическая надежность LLMs устойчива к затруднениям в процессе вывода. Для этого вводится новый метрический показатель Factual Robustness Score (FRS), основанный на измерении двух факторов: ентропии токенов и чувствительность к температуре вывода. Энтропия токенов измеряет степень неопределенности в токенах, которые LLMs выбирают в процессе вывода, в то время как чувствительность к температуре измеряет изменение вероятностей токенов при изменении температуры в процессе вывода. Эти два фактора объединяются в составляющие нового FRS. Для проведения экспериментов было использовано 5 моделей с различным количеством параметров и 3 датасетами closed-book QA, чтобы проверить надежность моделей в условиях различных степеней неопределенности. ## Результаты Результаты экспериментов показали, что значения FRS для LLMs варьируются в зависимости от размера модели и уровня неопределенности в выводе. Например, наименьшие модели имели FRS около 0.76, в то время как более крупные модели — 0.93. Эксперименты также показали, что фактическая надежность моделей снижается при увеличении неуверенности в выводе; в среднем наблюдалось падение точности ответа на 60%. Эти результаты подтверждают, что ентропия токенов и чувствительность к температуре вывода влияют на фактическую надежность LLMs и могут быть использованы для оценки и улучшения этих моделей. ## Значимость Найденные результаты имеют значительное значение для развития технологий обработки текста и знаний. Разработанный FRS может быть применен для оценки надежности LLMs в задачах, таких как вопрос-ответ и решение задач на основе знаний. Это также позволяет выявить узкие места в моделях, которые могут привести к неверным ответам. Эти результаты могут способствовать развитию более надежных моделей, способных лучше удерживать и выдавать фактическую инфор

Abstract

Ensuring the robustness of factual knowledge in LLMs is critical for reliable applications in tasks such as question answering and reasoning. However, existing evaluation methods predominantly focus on performance-based metrics, often investigating from the perspective of prompt perturbations, which captures only the externally triggered side of knowledge robustness. To bridge this gap, we introduce a principled approach to measure factual robustness from the perspective of the generation process by analyzing token distribution entropy in combination with temperature scaling sensitivity. These two factors build the Factual Robustness Score (FRS), a novel metric which quantifies the stability of a fact against perturbations in decoding conditions, given its initial uncertainty. To validate our approach, we conduct extensive experiments on 5 LLMs across 3 closed-book QA datasets (SQuAD, TriviaQA, and HotpotQA). We show that factual robustness varies significantly -- smaller models report an FRS of $0.76$, larger ones $0.93$ -- with accuracy degrading by ~$60\%$ under increased uncertainty. These insights demonstrate how entropy and temperature scaling impact factual accuracy, and lay a foundation for developing more robust knowledge retention and retrieval in future models.

Ссылки и действия