DS@GT at CheckThat! 2025: A Simple Retrieval-First, LLM-Backed Framework for Claim Normalization
2508.17402v1
cs.CL, cs.IR
2025-08-27
Авторы:
Aleksandar Pramov, Jiangqin Ma, Bina Patel
Резюме на русском
#### Контекст
Область исследования Claim Normalization является ключевой задачей в системах автоматического факт-чеккинга, поскольку она занимается преобразованием шумных данных, таких как социальные медиа посты, в нормализованные утверждения. Эти утверждения, в свою очередь, используются в задачах классификации достоверности. CheckThat! 2025 Task 2 посвящено эту задачу и содержит 20 языков разделенных на монолингвальные и нулевые задачи. Целью работ является разработка эффективного метода для нормализации утверждений, чтобы улучшить точность факт-чеккинга. Было выделено, что существующие подходы часто сталкиваются с проблемами стабильности и точности при обработке различных языков, что мотивировало разработку более универсальных решений.
#### Метод
Предложенная архитектура DS@GT представляет собой **семантический поиск с динамической моделью стимула**. Основная идея заключается в том, чтобы либо использовать модель GPT-4o-mini с генерируемыми при мгновенье входными примерами, либо выбирать наиболее подходящий экземпляр из обучающих данных. Для этого используются специально подготовленные контексты для GPT-4o-mini, позволяющие ему лучше понять интенцию запроса и сформировать достоверное нормализованное утверждение. Также в качестве второго подхода используется поисковая система, которая ищет ближайшее нормализованное утверждение в обучающих данных. Двухэтапный подход позволяет гибко адаптироваться к различным типам данных и языковых традиций.
#### Результаты
На официальном тестовом наборе DS@GT показала стабильную работу, особенно в монолингвальных языках. Заняла первое место в 7 из 13 языков, демонстрируя высокую точность в нормализации. Однако применение в нулевой задаче сталкивается с ограничениями, так как модель не всегда может адекватно обрабатывать новые языки и стили. Это указывает на необходимость дальнейших улучшений в области динамической моделирования контекста и обработки новых данных. Данные результаты подтверждают эффективность архитектуры в монолингвальных задачах и выявляют зоны узких мест для дальнейшего исследования.
#### Значимость
Система DS@GT может быть применена в системах факт-чеккинга, где нужна стабильная и точная обработка нормализации утверждений. Основные преимущества заключаются в универсальности, гибкости и низком потреблении ресурсов. В то же время, ограничения в нулевой задаче подчеркивают необходимость развития методов адаптации к новым языкам. Результаты демонстрируют, что такой подход может стать основой для будущих исследований в об
Abstract
Claim normalization is an integral part of any automatic fact-check
verification system. It parses the typically noisy claim data, such as social
media posts into normalized claims, which are then fed into downstream veracity
classification tasks. The CheckThat! 2025 Task 2 focuses specifically on claim
normalization and spans 20 languages under monolingual and zero-shot
conditions. Our proposed solution consists of a lightweight
\emph{retrieval-first, LLM-backed} pipeline, in which we either dynamically
prompt a GPT-4o-mini with in-context examples, or retrieve the closest
normalization from the train dataset directly. On the official test set, the
system ranks near the top for most monolingual tracks, achieving first place in
7 out of of the 13 languages. In contrast, the system underperforms in the
zero-shot setting, highlighting the limitation of the proposed solution.
Ссылки и действия
Дополнительные ресурсы: