Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models

2508.10192v1 cs.CL, cs.AI, cs.LG, q-fin.CP 2025-08-15
Авторы:

Igor Halperin

Резюме на русском

## Контекст Large Language Models (LLMs) становятся все более популярными в силу их возможности генерировать текст на основе качественных запросов. Однако одной из серьезных проблем является халлуцинация, т.е. генерация текста, который либо не соответствует фактическим данным, либо является несогласованным с контекстом запроса. Такие недостатки могут привести к ошибкам, когда модель производит неточные или недостоверные ответы, отвлекаясь от поставленных вопросов. Это может привести к значительным проблемам в различных областях, где нужен аккуратный и точный текст. Наша исследовательская цель — разработать систему, которая может диагностировать халлуцинации и определить наличие несогласованности в ответах модели. ## Метод Мы предлагаем Semantic Divergence Metrics (SDM), новую метрику для оценки согласованности ответов модели с запросом. Метод основывается на joint clustering с использованием различных тематических моделей, таких как Sentence-BERT. Мы используем этот подход для создания общей тематической модели для обработки запросов и ответов модели. Для оценки согласованности используются несколько информационно-теоретических метрик, таких как Jensen-Shannon Divergence и Wasserstein Distance, которые позволяют измерить расстояние между запросом и ответом. Мы также предлагаем Semantic Box, диагностическую систему для классификации типов ответов, включая рискованные и недостоверные ответы. ## Результаты Мы проверили наш метод на различных тестовых наборах данных, включая общие текстовые запросы и специализированные задачи. Наши результаты показали, что Semantic Divergence Metrics дают более точные оценки семантической разницы в ответах в сравнении с существующими методами. Мы также установили, что Semantic Box позволяет обнаруживать рисковые ситуации, когда модель использует неточные слова или фразы, что может привести к серьезным ошибкам. ## Значимость Наша работа открывает новые возможности для преодоления проблем халлуцинаций в LLMs. Мы предлагаем метод, который может быть использован в различных сферах, включая здравоохранение, финансы и юриспруденцию, где точность и достоверность ответов критично важны. Мы также показали, что наш метод может помочь разработчикам LLM улучшить модели, оправдав надежный и удобный инструмент для оценки и улучшения целостности и достоверности ответов. ## Выводы Мы представили Semantic Divergence Metrics, новую метрику для диагностики семантической разницы в ответах моделей LLM. Наша работа показала, что наш подход может быть использован для точного определения халлуцинаций в ответах, что позволяет улучшить достоверность и согласованность моделей. Мы также демонстрируем, как наша система может быть

Abstract

The proliferation of Large Language Models (LLMs) is challenged by hallucinations, critical failure modes where models generate non-factual, nonsensical or unfaithful text. This paper introduces Semantic Divergence Metrics (SDM), a novel lightweight framework for detecting Faithfulness Hallucinations -- events of severe deviations of LLMs responses from input contexts. We focus on a specific implementation of these LLM errors, {confabulations, defined as responses that are arbitrary and semantically misaligned with the user's query. Existing methods like Semantic Entropy test for arbitrariness by measuring the diversity of answers to a single, fixed prompt. Our SDM framework improves upon this by being more prompt-aware: we test for a deeper form of arbitrariness by measuring response consistency not only across multiple answers but also across multiple, semantically-equivalent paraphrases of the original prompt. Methodologically, our approach uses joint clustering on sentence embeddings to create a shared topic space for prompts and answers. A heatmap of topic co-occurances between prompts and responses can be viewed as a quantified two-dimensional visualization of the user-machine dialogue. We then compute a suite of information-theoretic metrics to measure the semantic divergence between prompts and responses. Our practical score, $\mathcal{S}_H$, combines the Jensen-Shannon divergence and Wasserstein distance to quantify this divergence, with a high score indicating a Faithfulness hallucination. Furthermore, we identify the KL divergence KL(Answer $||$ Prompt) as a powerful indicator of \textbf{Semantic Exploration}, a key signal for distinguishing different generative behaviors. These metrics are further combined into the Semantic Box, a diagnostic framework for classifying LLM response types, including the dangerous, confident confabulation.

Ссылки и действия