Principled Detection of Hallucinations in Large Language Models via Multiple Testing

2508.18473v2 cs.CL, cs.AI, cs.LG 2025-08-28

Авторы:

Jiawei Li, Akshayaa Magesh, Venugopal V. Veeravalli

Резюме на русском

#### Контекст Large Language Models (LLMs) являются мощными инструментами, решающими множество задач, однако часто страдают от проблемы "генерации сведений", или "халлуцинаций", — когда модель выдает ответы, которые выглядят убедительными, но являются неверными или даже бессмысленными. Эта проблема влияет на надежность приложений, основанных на LLMs, и требует эффективных методов для обнаружения таких недостоверных ответов. Наше исследование адресует эту проблему, поскольку точность и надежность LLMs необходимы для их распространенного применения в реальных условиях. #### Метод Мы сформулировали проблему обнаружения халлуцинаций как проблему нескольких гипотез. Для этого использовали разметку данных, где каждый ответ модели сравнивается с меткой достоверности. Метод основывается на множественных тестах, которые позволяют определять ответы, которые выходят за допустимые пределы достоверности. Мы использовали архитектуру, адаптированную для нескольких гипотез, чтобы обнаруживать потенциальные халлуцинации. Эта множественно-тестовая постановка допускает оценку вероятности того, что ответ модели является халлуцинацией, а не корректным. #### Результаты Мы провели многочисленные эксперименты, используя различные данные, включая тексты, в которых встречаются халлуцинации, и стандартные наборы данных для сравнения. Наши результаты показали, что метод оказался эффективнее, чем существующие методы, такие как только один тест или простые классификаторы. Наши модели демонстрировали высокую точность в обнаружении халлуцинаций, особенно когда ответы модели были достаточно уверенны, но неверны. Мы также проанализировали точность и скорость работы нашего метода, чтобы подтвердить его устойчивость в различных условиях. #### Значимость Метод может быть применен во многих областях, где нужна точность и надежность ответов LLMs, таких как помощь в решении задач, обработка юридических документов, медицинские приложения и другие задачи, требующие высоких стандартов достоверности. Его основное преимущество заключается в том, что он не только обнаруживает халлуцинации, но и учитывает множественные модели в процессе. Это может повысить уровень доверия к моделям, когда они применяются в критически важных задачах. #### Выводы Мы успешно разработали метод для обнаружения халлуцинаций в LLMs, основанный на множественных тестах. Наши результаты показали, что этот подход значительно превышает текущие методы по точности и устойчивости. В будущем, мы планируем расширить этот подход, чтобы улучшить точность в задачах с более сложными данными и последовательно затрагивать дополнительные области применения LLMs.

Abstract

While Large Language Models (LLMs) have emerged as powerful foundational models to solve a variety of tasks, they have also been shown to be prone to hallucinations, i.e., generating responses that sound confident but are actually incorrect or even nonsensical. In this work, we formulate the problem of detecting hallucinations as a hypothesis testing problem and draw parallels to the problem of out-of-distribution detection in machine learning models. We propose a multiple-testing-inspired method to solve the hallucination detection problem, and provide extensive experimental results to validate the robustness of our approach against state-of-the-art methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Principled Detection of Hallucinations in Large Language Models via Multiple Testing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация