📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models

2025-08-15

Авторы:

Igor Halperin

## Контекст Large Language Models (LLMs) становятся все более популярными в силу их возможности генерировать текст на основе качественных запросов. Однако одной из серьезных проблем является халлуцинация, т.е. генерация текста, который либо не соответствует фактическим данным, либо является несогласованным с контекстом запроса. Такие недостатки могут привести к ошибкам, когда модель производит неточные или недостоверные ответы, отвлекаясь от поставленных вопросов. Это может привести к значительным проблемам в различных областях, где нужен аккуратный и точный текст. Наша исследовательская цель — разработать систему, которая может диагностировать халлуцинации и определить наличие несогласованности в ответах модели. ## Метод Мы предлагаем Semantic Divergence Metrics (SDM), новую метрику для оценки согласованности ответов модели с запросом. Метод основывается на joint clustering с использованием различных тематических моделей, таких как Sentence-BERT. Мы используем этот подход для создания общей тематической модели для обработки запросов и ответов модели. Для оценки согласованности используются несколько информационно-теоретических метрик, таких как Jensen-Shannon Divergence и Wasserstein Distance, которые позволяют измерить расстояние между запросом и ответом. Мы также предлагаем Semantic Box, диагностическую систему для классификации типов ответов, включая рискованные и недостоверные ответы. ## Результаты Мы проверили наш метод на различных тестовых наборах данных, включая общие текстовые запросы и специализированные задачи. Наши результаты показали, что Semantic Divergence Metrics дают более точные оценки семантической разницы в ответах в сравнении с существующими методами. Мы также установили, что Semantic Box позволяет обнаруживать рисковые ситуации, когда модель использует неточные слова или фразы, что может привести к серьезным ошибкам. ## Значимость Наша работа открывает новые возможности для преодоления проблем халлуцинаций в LLMs. Мы предлагаем метод, который может быть использован в различных сферах, включая здравоохранение, финансы и юриспруденцию, где точность и достоверность ответов критично важны. Мы также показали, что наш метод может помочь разработчикам LLM улучшить модели, оправдав надежный и удобный инструмент для оценки и улучшения целостности и достоверности ответов. ## Выводы Мы представили Semantic Divergence Metrics, новую метрику для диагностики семантической разницы в ответах моделей LLM. Наша работа показала, что наш подход может быть использован для точного определения халлуцинаций в ответах, что позволяет улучшить достоверность и согласованность моделей. Мы также демонстрируем, как наша система может быть

Annotation:

The proliferation of Large Language Models (LLMs) is challenged by hallucinations, critical failure modes where models generate non-factual, nonsensical or unfaithful text. This paper introduces Semantic Divergence Metrics (SDM), a novel lightweight framework for detecting Faithfulness Hallucinations -- events of severe deviations of LLMs responses from input contexts. We focus on a specific implementation of these LLM errors, {confabulations, defined as responses that are arbitrary and semantic...

ID: 2508.10192v1 cs.CL, cs.AI, cs.LG, q-fin.CP

arXiv PDF