Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models
2508.10192v1
cs.CL, cs.AI, cs.LG, q-fin.CP
2025-08-15
Авторы:
Igor Halperin
Резюме на русском
## Контекст
Large Language Models (LLMs) становятся все более популярными в силу их возможности генерировать текст на основе качественных запросов. Однако одной из серьезных проблем является халлуцинация, т.е. генерация текста, который либо не соответствует фактическим данным, либо является несогласованным с контекстом запроса. Такие недостатки могут привести к ошибкам, когда модель производит неточные или недостоверные ответы, отвлекаясь от поставленных вопросов. Это может привести к значительным проблемам в различных областях, где нужен аккуратный и точный текст. Наша исследовательская цель — разработать систему, которая может диагностировать халлуцинации и определить наличие несогласованности в ответах модели.
## Метод
Мы предлагаем Semantic Divergence Metrics (SDM), новую метрику для оценки согласованности ответов модели с запросом. Метод основывается на joint clustering с использованием различных тематических моделей, таких как Sentence-BERT. Мы используем этот подход для создания общей тематической модели для обработки запросов и ответов модели. Для оценки согласованности используются несколько информационно-теоретических метрик, таких как Jensen-Shannon Divergence и Wasserstein Distance, которые позволяют измерить расстояние между запросом и ответом. Мы также предлагаем Semantic Box, диагностическую систему для классификации типов ответов, включая рискованные и недостоверные ответы.
## Результаты
Мы проверили наш метод на различных тестовых наборах данных, включая общие текстовые запросы и специализированные задачи. Наши результаты показали, что Semantic Divergence Metrics дают более точные оценки семантической разницы в ответах в сравнении с существующими методами. Мы также установили, что Semantic Box позволяет обнаруживать рисковые ситуации, когда модель использует неточные слова или фразы, что может привести к серьезным ошибкам.
## Значимость
Наша работа открывает новые возможности для преодоления проблем халлуцинаций в LLMs. Мы предлагаем метод, который может быть использован в различных сферах, включая здравоохранение, финансы и юриспруденцию, где точность и достоверность ответов критично важны. Мы также показали, что наш метод может помочь разработчикам LLM улучшить модели, оправдав надежный и удобный инструмент для оценки и улучшения целостности и достоверности ответов.
## Выводы
Мы представили Semantic Divergence Metrics, новую метрику для диагностики семантической разницы в ответах моделей LLM. Наша работа показала, что наш подход может быть использован для точного определения халлуцинаций в ответах, что позволяет улучшить достоверность и согласованность моделей. Мы также демонстрируем, как наша система может быть
Abstract
The proliferation of Large Language Models (LLMs) is challenged by
hallucinations, critical failure modes where models generate non-factual,
nonsensical or unfaithful text. This paper introduces Semantic Divergence
Metrics (SDM), a novel lightweight framework for detecting Faithfulness
Hallucinations -- events of severe deviations of LLMs responses from input
contexts. We focus on a specific implementation of these LLM errors,
{confabulations, defined as responses that are arbitrary and semantically
misaligned with the user's query. Existing methods like Semantic Entropy test
for arbitrariness by measuring the diversity of answers to a single, fixed
prompt. Our SDM framework improves upon this by being more prompt-aware: we
test for a deeper form of arbitrariness by measuring response consistency not
only across multiple answers but also across multiple, semantically-equivalent
paraphrases of the original prompt. Methodologically, our approach uses joint
clustering on sentence embeddings to create a shared topic space for prompts
and answers. A heatmap of topic co-occurances between prompts and responses can
be viewed as a quantified two-dimensional visualization of the user-machine
dialogue. We then compute a suite of information-theoretic metrics to measure
the semantic divergence between prompts and responses. Our practical score,
$\mathcal{S}_H$, combines the Jensen-Shannon divergence and Wasserstein
distance to quantify this divergence, with a high score indicating a
Faithfulness hallucination. Furthermore, we identify the KL divergence
KL(Answer $||$ Prompt) as a powerful indicator of \textbf{Semantic
Exploration}, a key signal for distinguishing different generative behaviors.
These metrics are further combined into the Semantic Box, a diagnostic
framework for classifying LLM response types, including the dangerous,
confident confabulation.