Principled Detection of Hallucinations in Large Language Models via Multiple Testing
2508.18473v2
cs.CL, cs.AI, cs.LG
2025-08-28
Авторы:
Jiawei Li, Akshayaa Magesh, Venugopal V. Veeravalli
Резюме на русском
#### Контекст
Large Language Models (LLMs) являются мощными инструментами, решающими множество задач, однако часто страдают от проблемы "генерации сведений", или "халлуцинаций", — когда модель выдает ответы, которые выглядят убедительными, но являются неверными или даже бессмысленными. Эта проблема влияет на надежность приложений, основанных на LLMs, и требует эффективных методов для обнаружения таких недостоверных ответов. Наше исследование адресует эту проблему, поскольку точность и надежность LLMs необходимы для их распространенного применения в реальных условиях.
#### Метод
Мы сформулировали проблему обнаружения халлуцинаций как проблему нескольких гипотез. Для этого использовали разметку данных, где каждый ответ модели сравнивается с меткой достоверности. Метод основывается на множественных тестах, которые позволяют определять ответы, которые выходят за допустимые пределы достоверности. Мы использовали архитектуру, адаптированную для нескольких гипотез, чтобы обнаруживать потенциальные халлуцинации. Эта множественно-тестовая постановка допускает оценку вероятности того, что ответ модели является халлуцинацией, а не корректным.
#### Результаты
Мы провели многочисленные эксперименты, используя различные данные, включая тексты, в которых встречаются халлуцинации, и стандартные наборы данных для сравнения. Наши результаты показали, что метод оказался эффективнее, чем существующие методы, такие как только один тест или простые классификаторы. Наши модели демонстрировали высокую точность в обнаружении халлуцинаций, особенно когда ответы модели были достаточно уверенны, но неверны. Мы также проанализировали точность и скорость работы нашего метода, чтобы подтвердить его устойчивость в различных условиях.
#### Значимость
Метод может быть применен во многих областях, где нужна точность и надежность ответов LLMs, таких как помощь в решении задач, обработка юридических документов, медицинские приложения и другие задачи, требующие высоких стандартов достоверности. Его основное преимущество заключается в том, что он не только обнаруживает халлуцинации, но и учитывает множественные модели в процессе. Это может повысить уровень доверия к моделям, когда они применяются в критически важных задачах.
#### Выводы
Мы успешно разработали метод для обнаружения халлуцинаций в LLMs, основанный на множественных тестах. Наши результаты показали, что этот подход значительно превышает текущие методы по точности и устойчивости. В будущем, мы планируем расширить этот подход, чтобы улучшить точность в задачах с более сложными данными и последовательно затрагивать дополнительные области применения LLMs.
Abstract
While Large Language Models (LLMs) have emerged as powerful foundational
models to solve a variety of tasks, they have also been shown to be prone to
hallucinations, i.e., generating responses that sound confident but are
actually incorrect or even nonsensical. In this work, we formulate the problem
of detecting hallucinations as a hypothesis testing problem and draw parallels
to the problem of out-of-distribution detection in machine learning models. We
propose a multiple-testing-inspired method to solve the hallucination detection
problem, and provide extensive experimental results to validate the robustness
of our approach against state-of-the-art methods.
Ссылки и действия
Дополнительные ресурсы: