Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

2508.06059v1 cs.CR, cs.CL 2025-08-12

Авторы:

Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau

Резюме на русском

## Контекст Реализация современных факт-чеккинг-систем, основанных на агентных технологиях, является ответом на масштабное распространение фальсификаций и неточностей в цифровой сфере. Эти системы разделяют комплексные утверждения на мелкие подзадачи, которые поэлементно проверяются, а результаты комбинируются в обоснованные вердикты со сносками. Их безопасность гарантирует доверие пользователей к получаемым сведениям. Однако, недооцененность возможности их компрометации может привести к негативным последствиям, таким как повторное распространение неточных сведений. Мотивация создания Fact2Fiction заключается в изучении уязвимостей таких систем и разработке подхода, усиливающего их подверженность к токсичным атакам. ## Метод Fact2Fiction реализует новую методологию атак, ориентированную на токсичность, которая эмулирует стратегию декомпозиции утверждений системы и использует её выводы для создания целевых манипуляций. Архитектура основывается на синтезе злоумышленных доказательств, которые выбрасываются в процессе проверки подзадач. Эти доказательства были обучены с помощью глубоких нейронных сетей, чтобы имитировать естественный язык и уменьшить вероятность выявления нарушения. Разработанный подход позволил максимально эффективно использовать ограниченные затраты ресурсов для максимального воздействия. ## Результаты Наблюдается высокая эффективность Fact2Fiction в проведении атак на целевые системы. Проведенные эксперименты показали, что атаки Fact2Fiction приводят к увеличению успешности от 8.9% до 21.2% по сравнению с другими атаками под учетом ограниченных затрат на подделку. Это было достигнуто благодаря точной адаптации злоумышленных доказательств к структуре системы. Такие результаты подтверждают уязвимость современных факт-чеккинг-систем и говорят об удобстве использования Fact2Fiction в реальных условиях. ## Значимость Полученные результаты открывают широкие возможности для распространения зла в рамках массовой информационной сферы. Злоумышленники могут воспользоваться Fact2Fiction для токсичного воздействия на автоматизированные системы проверки фактов, что приведет к усилению распространения неточностей. Такой подход имеет практическое значение в области безопасности цифровых систем, особенно тех, которые используются для поиска и проверки информации. Направления будущих исследований могут включать развитие защитных механизмов и алгоритмов, улучшающих безопасность и надежность агентных факт-чеккинг-систем. ## Выводы Fact2Fiction является первым фреймворком, демонстрирующим уязвимо

Abstract

State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first poisoning attack framework targeting such agentic fact-checking systems. Fact2Fiction mirrors the decomposition strategy and exploits system-generated justifications to craft tailored malicious evidences that compromise sub-claim verification. Extensive experiments demonstrate that Fact2Fiction achieves 8.9\%--21.2\% higher attack success rates than state-of-the-art attacks across various poisoning budgets. Fact2Fiction exposes security weaknesses in current fact-checking systems and highlights the need for defensive countermeasures.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI

LeechHijack: Covert Computational Resource Exploitation in Intelligent Agent Sys...

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic ...

Understanding and Mitigating Over-refusal for Large Language Models via Safety R...

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Навигация