Scaling Truth: The Confidence Paradox in AI Fact-Checking

2509.08803v1 cs.SI, cs.AI, cs.CL, cs.CY 2025-09-12
Авторы:

Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi

Резюме на русском

## Контекст М MODERN INFORMATION SOCIETY FACES A SIGNIFICANT CHALLENGE: THE RAPID SPREAD OF MISINFORMATION. Точность и достоверность в сфере информации становятся крайне важными, особенно в свете последствий распространения ложных сведений во времена кризисов и политических событий. Факт-чеккинг, традиционно выполняемый человеком, требует больших ресурсов и знаний, что делает его масштабированием дорогостоящим и неэффективным. AI-помогающие технологии, в частности, large language models (LLMs), предлагают выход из этой ситуации, обеспечивая автоматизацию процесса верификации фактов. Однако остается неясно, насколько эффективны эти модели в разных географических и культурных контекстах. В данном исследовании рассматриваются эти проблемы, а также проводится оценка того, насколько эти модели могут обеспечить достоверность и эксплуатируемость в разных странах и регионах. ## Метод В ходе исследования использовались 9 established LLMs различных категорий: от open-source до closed-source, от малых моделей до больших, с разными архитектурами и функциями умственного моделирования. Тестировались 5,000 фактов, проверенных ранее 174 профессиональными организациями в 47 языках. Методы включали в себя test generalizability на claims, не входящих в обучающие данные, и использовались four prompting strategies, чтобы эмулировать работу как обычных пользователей, так и профессиональных fact-checkers. Для подтверждения результатов использовались 240,000 human annotations в качестве ground truth, чтобы подтвердить анализ и выявить системные ошибки и модельные погрешности. ## Результаты Открытые модели с меньшим размером показали высокую уверенность в своих ответах, но со слабой точностью. Более крупные модели, в свою очередь, демонстрировали точность, но испытали проблемы с уверенностью в своих выводах. Эти результаты подтвердили неожиданное явление, похожее на Dunning-Kruger effect: small models ошибаются чаще, но с уверенностью, а large models могут быть точными, но с растратой на уверенность. Заметные различия замечены в области нон-английских языков и claims из Global South, что указывает на потенциальное усиление информационных неравенств. ## Значимость Эти результаты могут быть применены в разных сферах, включая media literacy, policy-making и global information equality. Изученный эффект подчеркивает риски, связанные с использованием небольших моделей в ресурс-constrained организациях, что может привести к неточным выводам в целом. Набор данных и тесты могут служить benchmark для последующих исследований в области AI-помогающих технологий в fact-checking. ## Выводы Изученные модели LLMs демонстрируют противоречивые результаты в зависимости от размера и архитектуры. Smaller models выдают высокую уверенность, но низку

Abstract

The rise of misinformation underscores the need for scalable and reliable fact-checking solutions. Large language models (LLMs) hold promise in automating fact verification, yet their effectiveness across global contexts remains uncertain. We systematically evaluate nine established LLMs across multiple categories (open/closed-source, multiple sizes, diverse architectures, reasoning-based) using 5,000 claims previously assessed by 174 professional fact-checking organizations across 47 languages. Our methodology tests model generalizability on claims postdating training cutoffs and four prompting strategies mirroring both citizen and professional fact-checker interactions, with over 240,000 human annotations as ground truth. Findings reveal a concerning pattern resembling the Dunning-Kruger effect: smaller, accessible models show high confidence despite lower accuracy, while larger models demonstrate higher accuracy but lower confidence. This risks systemic bias in information verification, as resource-constrained organizations typically use smaller models. Performance gaps are most pronounced for non-English languages and claims originating from the Global South, threatening to widen existing information inequalities. These results establish a multilingual benchmark for future research and provide an evidence base for policy aimed at ensuring equitable access to trustworthy, AI-assisted fact-checking.

Ссылки и действия