Scaling Truth: The Confidence Paradox in AI Fact-Checking
2509.08803v1
cs.SI, cs.AI, cs.CL, cs.CY
2025-09-12
Авторы:
Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi
Резюме на русском
## Контекст
М MODERN INFORMATION SOCIETY FACES A SIGNIFICANT CHALLENGE: THE RAPID SPREAD OF MISINFORMATION. Точность и достоверность в сфере информации становятся крайне важными, особенно в свете последствий распространения ложных сведений во времена кризисов и политических событий. Факт-чеккинг, традиционно выполняемый человеком, требует больших ресурсов и знаний, что делает его масштабированием дорогостоящим и неэффективным. AI-помогающие технологии, в частности, large language models (LLMs), предлагают выход из этой ситуации, обеспечивая автоматизацию процесса верификации фактов. Однако остается неясно, насколько эффективны эти модели в разных географических и культурных контекстах. В данном исследовании рассматриваются эти проблемы, а также проводится оценка того, насколько эти модели могут обеспечить достоверность и эксплуатируемость в разных странах и регионах.
## Метод
В ходе исследования использовались 9 established LLMs различных категорий: от open-source до closed-source, от малых моделей до больших, с разными архитектурами и функциями умственного моделирования. Тестировались 5,000 фактов, проверенных ранее 174 профессиональными организациями в 47 языках. Методы включали в себя test generalizability на claims, не входящих в обучающие данные, и использовались four prompting strategies, чтобы эмулировать работу как обычных пользователей, так и профессиональных fact-checkers. Для подтверждения результатов использовались 240,000 human annotations в качестве ground truth, чтобы подтвердить анализ и выявить системные ошибки и модельные погрешности.
## Результаты
Открытые модели с меньшим размером показали высокую уверенность в своих ответах, но со слабой точностью. Более крупные модели, в свою очередь, демонстрировали точность, но испытали проблемы с уверенностью в своих выводах. Эти результаты подтвердили неожиданное явление, похожее на Dunning-Kruger effect: small models ошибаются чаще, но с уверенностью, а large models могут быть точными, но с растратой на уверенность. Заметные различия замечены в области нон-английских языков и claims из Global South, что указывает на потенциальное усиление информационных неравенств.
## Значимость
Эти результаты могут быть применены в разных сферах, включая media literacy, policy-making и global information equality. Изученный эффект подчеркивает риски, связанные с использованием небольших моделей в ресурс-constrained организациях, что может привести к неточным выводам в целом. Набор данных и тесты могут служить benchmark для последующих исследований в области AI-помогающих технологий в fact-checking.
## Выводы
Изученные модели LLMs демонстрируют противоречивые результаты в зависимости от размера и архитектуры. Smaller models выдают высокую уверенность, но низку
Abstract
The rise of misinformation underscores the need for scalable and reliable
fact-checking solutions. Large language models (LLMs) hold promise in
automating fact verification, yet their effectiveness across global contexts
remains uncertain. We systematically evaluate nine established LLMs across
multiple categories (open/closed-source, multiple sizes, diverse architectures,
reasoning-based) using 5,000 claims previously assessed by 174 professional
fact-checking organizations across 47 languages. Our methodology tests model
generalizability on claims postdating training cutoffs and four prompting
strategies mirroring both citizen and professional fact-checker interactions,
with over 240,000 human annotations as ground truth. Findings reveal a
concerning pattern resembling the Dunning-Kruger effect: smaller, accessible
models show high confidence despite lower accuracy, while larger models
demonstrate higher accuracy but lower confidence. This risks systemic bias in
information verification, as resource-constrained organizations typically use
smaller models. Performance gaps are most pronounced for non-English languages
and claims originating from the Global South, threatening to widen existing
information inequalities. These results establish a multilingual benchmark for
future research and provide an evidence base for policy aimed at ensuring
equitable access to trustworthy, AI-assisted fact-checking.