Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
2508.06059v1
cs.CR, cs.CL
2025-08-12
Авторы:
Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
Резюме на русском
## Контекст
Реализация современных факт-чеккинг-систем, основанных на агентных технологиях, является ответом на масштабное распространение фальсификаций и неточностей в цифровой сфере. Эти системы разделяют комплексные утверждения на мелкие подзадачи, которые поэлементно проверяются, а результаты комбинируются в обоснованные вердикты со сносками. Их безопасность гарантирует доверие пользователей к получаемым сведениям. Однако, недооцененность возможности их компрометации может привести к негативным последствиям, таким как повторное распространение неточных сведений. Мотивация создания Fact2Fiction заключается в изучении уязвимостей таких систем и разработке подхода, усиливающего их подверженность к токсичным атакам.
## Метод
Fact2Fiction реализует новую методологию атак, ориентированную на токсичность, которая эмулирует стратегию декомпозиции утверждений системы и использует её выводы для создания целевых манипуляций. Архитектура основывается на синтезе злоумышленных доказательств, которые выбрасываются в процессе проверки подзадач. Эти доказательства были обучены с помощью глубоких нейронных сетей, чтобы имитировать естественный язык и уменьшить вероятность выявления нарушения. Разработанный подход позволил максимально эффективно использовать ограниченные затраты ресурсов для максимального воздействия.
## Результаты
Наблюдается высокая эффективность Fact2Fiction в проведении атак на целевые системы. Проведенные эксперименты показали, что атаки Fact2Fiction приводят к увеличению успешности от 8.9% до 21.2% по сравнению с другими атаками под учетом ограниченных затрат на подделку. Это было достигнуто благодаря точной адаптации злоумышленных доказательств к структуре системы. Такие результаты подтверждают уязвимость современных факт-чеккинг-систем и говорят об удобстве использования Fact2Fiction в реальных условиях.
## Значимость
Полученные результаты открывают широкие возможности для распространения зла в рамках массовой информационной сферы. Злоумышленники могут воспользоваться Fact2Fiction для токсичного воздействия на автоматизированные системы проверки фактов, что приведет к усилению распространения неточностей. Такой подход имеет практическое значение в области безопасности цифровых систем, особенно тех, которые используются для поиска и проверки информации. Направления будущих исследований могут включать развитие защитных механизмов и алгоритмов, улучшающих безопасность и надежность агентных факт-чеккинг-систем.
## Выводы
Fact2Fiction является первым фреймворком, демонстрирующим уязвимо
Abstract
State-of-the-art fact-checking systems combat misinformation at scale by
employing autonomous LLM-based agents to decompose complex claims into smaller
sub-claims, verify each sub-claim individually, and aggregate the partial
results to produce verdicts with justifications (explanatory rationales for the
verdicts). The security of these systems is crucial, as compromised
fact-checkers, which tend to be easily underexplored, can amplify
misinformation. This work introduces Fact2Fiction, the first poisoning attack
framework targeting such agentic fact-checking systems. Fact2Fiction mirrors
the decomposition strategy and exploits system-generated justifications to
craft tailored malicious evidences that compromise sub-claim verification.
Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\%
higher attack success rates than state-of-the-art attacks across various
poisoning budgets. Fact2Fiction exposes security weaknesses in current
fact-checking systems and highlights the need for defensive countermeasures.
Ссылки и действия
Дополнительные ресурсы: