#### Контекст
Large Language Models (LLMs) являются мощными инструментами, решающими множество задач, однако часто страдают от проблемы "генерации сведений", или "халлуцинаций", — когда модель выдает ответы, которые выглядят убедительными, но являются неверными или даже бессмысленными. Эта проблема влияет на надежность приложений, основанных на LLMs, и требует эффективных методов для обнаружения таких недостоверных ответов. Наше исследование адресует эту проблему, поскольку точность и надежность LLMs необходимы для их распространенного применения в реальных условиях.
#### Метод
Мы сформулировали проблему обнаружения халлуцинаций как проблему нескольких гипотез. Для этого использовали разметку данных, где каждый ответ модели сравнивается с меткой достоверности. Метод основывается на множественных тестах, которые позволяют определять ответы, которые выходят за допустимые пределы достоверности. Мы использовали архитектуру, адаптированную для нескольких гипотез, чтобы обнаруживать потенциальные халлуцинации. Эта множественно-тестовая постановка допускает оценку вероятности того, что ответ модели является халлуцинацией, а не корректным.
#### Результаты
Мы провели многочисленные эксперименты, используя различные данные, включая тексты, в которых встречаются халлуцинации, и стандартные наборы данных для сравнения. Наши результаты показали, что метод оказался эффективнее, чем существующие методы, такие как только один тест или простые классификаторы. Наши модели демонстрировали высокую точность в обнаружении халлуцинаций, особенно когда ответы модели были достаточно уверенны, но неверны. Мы также проанализировали точность и скорость работы нашего метода, чтобы подтвердить его устойчивость в различных условиях.
#### Значимость
Метод может быть применен во многих областях, где нужна точность и надежность ответов LLMs, таких как помощь в решении задач, обработка юридических документов, медицинские приложения и другие задачи, требующие высоких стандартов достоверности. Его основное преимущество заключается в том, что он не только обнаруживает халлуцинации, но и учитывает множественные модели в процессе. Это может повысить уровень доверия к моделям, когда они применяются в критически важных задачах.
#### Выводы
Мы успешно разработали метод для обнаружения халлуцинаций в LLMs, основанный на множественных тестах. Наши результаты показали, что этот подход значительно превышает текущие методы по точности и устойчивости. В будущем, мы планируем расширить этот подход, чтобы улучшить точность в задачах с более сложными данными и последовательно затрагивать дополнительные области применения LLMs.