Adversarial Attacks Against Automated Fact-Checking: A Survey

2509.08463v1 cs.CL, cs.AI, cs.CR 2025-09-12

Авторы:

Fanzhen Liu, Alsharif Abuadbba, Kristen Moore, Surya Nepal, Cecile Paris, Jia Wu, Jian Yang, Quan Z. Sheng

Резюме на русском

#### Контекст Информационное пространство сегодня становится все более тесно связано с проблемой распространения недостоверной информации. Факт-чеккинг (FC) является ключевым инструментом для проверки утверждений и формирования доверия к информационным источникам. Развитие автоматизированных систем FC (AFC) позволило обрабатывать большие объемы данных и ускорить процесс проверки. Однако эти системы остаются уязвимы к адверсарским атакам, которые могут манипулировать данными, генерировать ложные утверждения или изменять ключевые элементы, такие как факты и соотношения между ними. Такие атаки не только подрывают достоверность факт-чеккинга, но и могут исказить решения в критических областях, включая политику, здравоохранение и финансы. Несмотря на рост интереса к этим проблемам, существует недостаток в полной обзорной работе, которая бы рассматривала все аспекты адверсарских атак против AFC. #### Метод Данная работа основывается на методологическом анализе существующих исследований и технических решений в области адверсарских атак против автоматизированных систем FC. Авторы исследуют различные методы атак, включая генерирование поддельных утверждений, изменение фактов и манипуляции с взаимосвязью между фактами и доказательствами. Основной архитектурой рассматриваются модели FC, а также методы их оценки на устойчивость к атакам. Были проанализированы существующие методы защиты, включая адверсарские-сознательные модели, и изучены их эффективность. #### Результаты Проведенные эксперименты показали, что адверсарские атаки могут существенно снизить точность и достоверность FC-систем. В частности, было проверено, что модели, не приготовленные к таким атакам, ведут себя неустойчиво при внедрении манипулирования в входные данные. Использованы различные данные, в том числе текстовые источники и специальные базы данных для создания атак. Результаты показали, что некоторые модели подвержены высокой уязвимости, в то время как другие могут поддерживать достаточную устойчивость при определенных условиях. #### Значимость Полученные результаты имеют значительное значение в развитии надежных систем FC. Они могут быть применены в сферах, где достоверная информация важна для принятия решений — например, в новостях, здравоохранении, финансовых рынках. Исследование открытых проблем, таких как улучшение методов обнаружения и предотвращения атак, может способствовать созданию более устойчивых моделей. Также, этот обзор помогает выделить потенциальные направления исследований в области

Abstract

In an era where misinformation spreads freely, fact-checking (FC) plays a crucial role in verifying claims and promoting reliable information. While automated fact-checking (AFC) has advanced significantly, existing systems remain vulnerable to adversarial attacks that manipulate or generate claims, evidence, or claim-evidence pairs. These attacks can distort the truth, mislead decision-makers, and ultimately undermine the reliability of FC models. Despite growing research interest in adversarial attacks against AFC systems, a comprehensive, holistic overview of key challenges remains lacking. These challenges include understanding attack strategies, assessing the resilience of current models, and identifying ways to enhance robustness. This survey provides the first in-depth review of adversarial attacks targeting FC, categorizing existing attack methodologies and evaluating their impact on AFC systems. Additionally, we examine recent advancements in adversary-aware defenses and highlight open research questions that require further exploration. Our findings underscore the urgent need for resilient FC frameworks capable of withstanding adversarial manipulations in pursuit of preserving high verification accuracy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adversarial Attacks Against Automated Fact-Checking: A Survey

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SGuard-v1: Safety Guardrail for Large Language Models

Toward Cybersecurity-Expert Small Language Models

Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities ...

LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from ...

A Survey on Agentic Security: Applications, Threats and Defenses

Навигация