From Confidence to Collapse in LLM Factual Robustness

2508.16267v1 cs.CL, cs.AI 2025-08-26
Авторы:

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

Резюме на русском

## Контекст Обеспечение фактической надёжности языковых моделей (LLM) является ключевым заданием для устойчивого применения этих моделей в задачах, таких как вопрос ответа и логическое выводить. Несмотря на то, что существуют многочисленные методы экспериментального подтверждения, большинство из них ориентированы на проверку устойчивости моделей по метрикам производительности. Эти методы, основывающиеся на простых пробуждениях текста (prompt perturbations), не полностью отражают внутреннюю структуру и неустойчивость моделей. Задача этого исследования — разработать более тонкий механизм для измерения фактической надёжности, который будет учитывать внутреннюю сложность моделей, а не только отклик на традиционные изменения подачи входных данных. ## Метод В этом работе представляется подход, основанный на измерении степени неопределённости (uncertainty) в токенах и учёте того, как зависит это значение от температуры (temperature scaling) в процессе декодирования. Мы представляем "Factual Robustness Score" (FRS), которая является совокупностью этих двух факторов. Модельная архитектура опирается на точные измерения токенов, которые определяются в процессе декодирования, и температуры модели, которая влияет на степень сильности отклика модели на различные условия. Эти два меры объединяются для построения более широкого понимания фактической надёжности модели. ## Результаты Мы проводили эксперименты на 5 моделях языковых моделей (LLMs), включая модели различных размеров, в трёх задачах классического вопроса-ответа (SQuAD, TriviaQA, HotpotQA). Определили, что модели разных размеров показывают различный уровень надёжности в фактических данных — FRS для меньших моделей составил 0.76, для более крупных — 0.93. Был также выявлен, что при увеличении неопределённости (uncertainty) в процессе декодирования модели становятся менее надёжными в фактических данных, и их точность может снижаться на ~60% в сильных условиях неопределённости. Эти результаты демонстрируют, насколько важен "Factual Robustness Score" как новый метод для измерения надёжности моделей в задачах, в которых требуется устойчивость к неопределённости. ## Значимость Наши результаты могут быть применены в области развития новых моделей языкового моделирования, которые будут более устойчивыми к неопределённости в данных. Мы также можем использовать этот подход для развития более устойчивых методов вопрос-ответа и логического вывода, что повысит надежность моделей в реальных задачах. Помимо этого, наши результаты позволяют разрабатывать модели, которые могут более точно отражать логическую неопределённость, что может быть полезно в задачах, где стоит высокая стоимость ошибок. ## Выво

Abstract

Ensuring the robustness of factual knowledge in LLMs is critical for reliable applications in tasks such as question answering and reasoning. However, existing evaluation methods predominantly focus on performance-based metrics, often investigating from the perspective of prompt perturbations, which captures only the externally triggered side of knowledge robustness. To bridge this gap, we introduce a principled approach to measure factual robustness from the perspective of the generation process by analyzing token distribution entropy in combination with temperature scaling sensitivity. These two factors build the Factual Robustness Score (FRS), a novel metric which quantifies the stability of a fact against perturbations in decoding conditions, given its initial uncertainty. To validate our approach, we conduct extensive experiments on 5 LLMs across 3 closed-book QA datasets (SQuAD, TriviaQA, and HotpotQA). We show that factual robustness varies significantly -- smaller models report an FRS of $0.76$, larger ones $0.93$ -- with accuracy degrading by ~$60\%$ under increased uncertainty. These insights demonstrate how entropy and temperature scaling impact factual accuracy, and lay a foundation for developing more robust knowledge retention and retrieval in future models.

Ссылки и действия