## Контекст
М MODERN INFORMATION SOCIETY FACES A SIGNIFICANT CHALLENGE: THE RAPID SPREAD OF MISINFORMATION. Точность и достоверность в сфере информации становятся крайне важными, особенно в свете последствий распространения ложных сведений во времена кризисов и политических событий. Факт-чеккинг, традиционно выполняемый человеком, требует больших ресурсов и знаний, что делает его масштабированием дорогостоящим и неэффективным. AI-помогающие технологии, в частности, large language models (LLMs), предлагают выход из этой ситуации, обеспечивая автоматизацию процесса верификации фактов. Однако остается неясно, насколько эффективны эти модели в разных географических и культурных контекстах. В данном исследовании рассматриваются эти проблемы, а также проводится оценка того, насколько эти модели могут обеспечить достоверность и эксплуатируемость в разных странах и регионах.
## Метод
В ходе исследования использовались 9 established LLMs различных категорий: от open-source до closed-source, от малых моделей до больших, с разными архитектурами и функциями умственного моделирования. Тестировались 5,000 фактов, проверенных ранее 174 профессиональными организациями в 47 языках. Методы включали в себя test generalizability на claims, не входящих в обучающие данные, и использовались four prompting strategies, чтобы эмулировать работу как обычных пользователей, так и профессиональных fact-checkers. Для подтверждения результатов использовались 240,000 human annotations в качестве ground truth, чтобы подтвердить анализ и выявить системные ошибки и модельные погрешности.
## Результаты
Открытые модели с меньшим размером показали высокую уверенность в своих ответах, но со слабой точностью. Более крупные модели, в свою очередь, демонстрировали точность, но испытали проблемы с уверенностью в своих выводах. Эти результаты подтвердили неожиданное явление, похожее на Dunning-Kruger effect: small models ошибаются чаще, но с уверенностью, а large models могут быть точными, но с растратой на уверенность. Заметные различия замечены в области нон-английских языков и claims из Global South, что указывает на потенциальное усиление информационных неравенств.
## Значимость
Эти результаты могут быть применены в разных сферах, включая media literacy, policy-making и global information equality. Изученный эффект подчеркивает риски, связанные с использованием небольших моделей в ресурс-constrained организациях, что может привести к неточным выводам в целом. Набор данных и тесты могут служить benchmark для последующих исследований в области AI-помогающих технологий в fact-checking.
## Выводы
Изученные модели LLMs демонстрируют противоречивые результаты в зависимости от размера и архитектуры. Smaller models выдают высокую уверенность, но низку