ATLANTIS at SemEval-2025 Task 3: Detecting Hallucinated Text Spans in Question Answering
2508.05179v1
cs.CL
2025-08-09
Авторы:
Catherine Kobus, François Lancelot, Marion-Cécile Martin, Nawal Ould Amer
Резюме на русском
**Резюме**
В статье представлены результаты участия команды ATLANTIS в задаче SemEval-2025 Task 3 по обнаружению халюцинаций в текстах, сгенерированных Large Language Models (LLMs) в контексте задач QA. Халюцинации — некорректные или неточные обобщения, генерируемые LLMs в процессе NLG, являются значительной проблемой, ограничивающей эффективность таких систем. Авторы исследовали методы обнаружения халюцинаций, включая методы с использованием внешнего контекста и без него. Они применяли техники нескольких подсказок с LLMs, классификацию на уровне токенов или fine-tuning моделей на синтетических данных. Исследования показали, что использование специального контекста позволяет значительно повысить точность обнаружения халюцинаций. Команда ATLANTIS достигла ведущих результатов в спановском языке, а также установила конкурентные показатели на английском и немецком. Основным выводом является то, что интеграция контекста и оптимальная настройка моделей позволяют эффективно уменьшить халюцинации и улучшить качество генерируемого текста.
Abstract
This paper presents the contributions of the ATLANTIS team to SemEval-2025
Task 3, focusing on detecting hallucinated text spans in question answering
systems. Large Language Models (LLMs) have significantly advanced Natural
Language Generation (NLG) but remain susceptible to hallucinations, generating
incorrect or misleading content. To address this, we explored methods both with
and without external context, utilizing few-shot prompting with a LLM,
token-level classification or LLM fine-tuned on synthetic data. Notably, our
approaches achieved top rankings in Spanish and competitive placements in
English and German. This work highlights the importance of integrating relevant
context to mitigate hallucinations and demonstrate the potential of fine-tuned
models and prompt engineering.
Ссылки и действия
Дополнительные ресурсы: