From Confidence to Collapse in LLM Factual Robustness
2508.16267v1
cs.CL, cs.AI
2025-08-26
Авторы:
Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci
Резюме на русском
## Контекст
Обеспечение фактической надёжности языковых моделей (LLM) является ключевым заданием для устойчивого применения этих моделей в задачах, таких как вопрос ответа и логическое выводить. Несмотря на то, что существуют многочисленные методы экспериментального подтверждения, большинство из них ориентированы на проверку устойчивости моделей по метрикам производительности. Эти методы, основывающиеся на простых пробуждениях текста (prompt perturbations), не полностью отражают внутреннюю структуру и неустойчивость моделей. Задача этого исследования — разработать более тонкий механизм для измерения фактической надёжности, который будет учитывать внутреннюю сложность моделей, а не только отклик на традиционные изменения подачи входных данных.
## Метод
В этом работе представляется подход, основанный на измерении степени неопределённости (uncertainty) в токенах и учёте того, как зависит это значение от температуры (temperature scaling) в процессе декодирования. Мы представляем "Factual Robustness Score" (FRS), которая является совокупностью этих двух факторов. Модельная архитектура опирается на точные измерения токенов, которые определяются в процессе декодирования, и температуры модели, которая влияет на степень сильности отклика модели на различные условия. Эти два меры объединяются для построения более широкого понимания фактической надёжности модели.
## Результаты
Мы проводили эксперименты на 5 моделях языковых моделей (LLMs), включая модели различных размеров, в трёх задачах классического вопроса-ответа (SQuAD, TriviaQA, HotpotQA). Определили, что модели разных размеров показывают различный уровень надёжности в фактических данных — FRS для меньших моделей составил 0.76, для более крупных — 0.93. Был также выявлен, что при увеличении неопределённости (uncertainty) в процессе декодирования модели становятся менее надёжными в фактических данных, и их точность может снижаться на ~60% в сильных условиях неопределённости. Эти результаты демонстрируют, насколько важен "Factual Robustness Score" как новый метод для измерения надёжности моделей в задачах, в которых требуется устойчивость к неопределённости.
## Значимость
Наши результаты могут быть применены в области развития новых моделей языкового моделирования, которые будут более устойчивыми к неопределённости в данных. Мы также можем использовать этот подход для развития более устойчивых методов вопрос-ответа и логического вывода, что повысит надежность моделей в реальных задачах. Помимо этого, наши результаты позволяют разрабатывать модели, которые могут более точно отражать логическую неопределённость, что может быть полезно в задачах, где стоит высокая стоимость ошибок.
## Выво
Abstract
Ensuring the robustness of factual knowledge in LLMs is critical for reliable
applications in tasks such as question answering and reasoning. However,
existing evaluation methods predominantly focus on performance-based metrics,
often investigating from the perspective of prompt perturbations, which
captures only the externally triggered side of knowledge robustness. To bridge
this gap, we introduce a principled approach to measure factual robustness from
the perspective of the generation process by analyzing token distribution
entropy in combination with temperature scaling sensitivity. These two factors
build the Factual Robustness Score (FRS), a novel metric which quantifies the
stability of a fact against perturbations in decoding conditions, given its
initial uncertainty. To validate our approach, we conduct extensive experiments
on 5 LLMs across 3 closed-book QA datasets (SQuAD, TriviaQA, and HotpotQA). We
show that factual robustness varies significantly -- smaller models report an
FRS of $0.76$, larger ones $0.93$ -- with accuracy degrading by ~$60\%$ under
increased uncertainty. These insights demonstrate how entropy and temperature
scaling impact factual accuracy, and lay a foundation for developing more
robust knowledge retention and retrieval in future models.
Ссылки и действия
Дополнительные ресурсы: