Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency

2508.14314v1 cs.CL, cs.AI, cs.LG 2025-08-22
Авторы:

Aman Goel, Daniel Schwartz, Yanjun Qi

Резюме на русском

#### Контекст Large language models (LLMs) становятся все более важной составляющей современных технологий, позволяя решать задачи, от написания кода до генерирования текстов. Однако они не освобождены от ошибок, одной из самых важных из которых является "hallucination" — выдача неточных или неподтвержденных ответов, которые могут показаться авторитетными, но являются фактически неверными. Эта проблема особенно критична в задачах, требующих высокой точности, таких как медицинские или юридические приложения. Наличие эффективного метода для обнаружения и устранения таких ошибок может существенно усилить надежность LLM в производственных средах. #### Метод Мы предлагаем Finch-Zk — блэк-боксный фреймворк, основанный на **fine-grained cross-model consistency** (тонкой структурной совпадении ответов между разными моделями). За основу фреймворка лежит две ключевые идеи: 1. **Cross-model consistency checking**: Обнаружение тонких неточностей в ответах LLM, проводившись сравнение выдач от нескольких моделей, запущенных на семантически одинаковых запросах. Это позволяет выявить мелкие ошибки, которые могут быть пропущены стандартными методами. 2. **Targeted mitigation**: Использование локальных коррекций, которые исправляют только те части ответа, где обнаружены неточности, при этом сохраняя точные части ответа. Finch-Zk работает на базе black-box моделей, не требуя доступа к их внутренним представлениям или дополнительных источников знаний. #### Результаты Мы провели эксперименты на датасете FELM, сравнив Finch-Zk с существующими подходами. Результаты показали, что F1-меру для обнаружения hallucinations Finch-Zk увеличивает на 6–39% по сравнению с конкурентными вариантами. Также, на GPQA-diamond датасете, Finch-Zk повысил точность ответов примененным к моделям, таким как Llama 4 Maverick и Claude 4 Sonnet, на 7–8 процентных единиц. Эти результаты подтверждают, что этот подход дает существенное улучшение в обнаружении и исправлении неточностей, даже при использовании готовых моделей. #### Значимость Подход Finch-Zk может быть применен в различных областях, где точность ответов критична, включая: - Медицинские приложения. - Юридические системы. - Автоматизация поддержки клиентов. Один из основных преимуществ этого подхода заключается в том, что он может быть использован для любых блэк-боксных моделей без дополнительных требований к обучению или редактированию. Это делает его широко применимым и открывает путь к его внедрению в рабочих производственных средах. #### Выводы Finch-Zk представляет собой эффективный и практичный подход к обнаружению и исправлению неточностей в LLM. Мы доказали его эффективность при помощи научных экспериментов и сравнени

Abstract

Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, but they remain susceptible to hallucinations--generating content that appears plausible but contains factual inaccuracies. We present Finch-Zk, a black-box framework that leverages FINe-grained Cross-model consistency to detect and mitigate Hallucinations in LLM outputs without requiring external knowledge sources. Finch-Zk introduces two key innovations: 1) a cross-model consistency checking strategy that reveals fine-grained inaccuracies by comparing responses generated by diverse models from semantically-equivalent prompts, and 2) a targeted mitigation technique that applies precise corrections to problematic segments while preserving accurate content. Experiments on the FELM dataset show Finch-Zk improves hallucination detection F1 scores by 6-39\% compared to existing approaches. For mitigation, Finch-Zk achieves 7-8 absolute percentage points improvement in answer accuracy on the GPQA-diamond dataset when applied to state-of-the-art models like Llama 4 Maverick and Claude 4 Sonnet. Extensive evaluation across multiple models demonstrates that Finch-Zk provides a practical, deployment-ready safeguard for enhancing factual reliability in production LLM systems.

Ссылки и действия