PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models
2509.10737v1
cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3
2025-09-17
Авторы:
Zaur Gouliev, Jennifer Waters, Chengqian Wang
Резюме на русском
####################
## Контекст
####################
Распространение дезинформации превышает границы языков и культур, что создает сложные вызовы для моделей искусственного интеллекта. Хотя transformer-based language models показали замечательные результаты в обнаружении дезинформации на языке английском, их эффективность в многоязычных условиях остается неясной. Этот факт мотивирует исследователей расширить гибкость и полноту моделей, чтобы они могли анализировать дезинформацию на разных языках. Основной мотивацией является необходимость создания моделей, которые могут правильно различать фальшивые утверждения от истинных в разных языковых и культурных контекстах, помогая таким образом бороться с распространением дезинформации.
####################
## Метод
####################
Для решения этой проблемы авторы предлагают систематическую оценку пяти моделей трансформеров: mBERT, XLM, XLM-RoBERTa, RemBERT и mT5, примененных к задаче классификации "фальшивого утверждения против истинного". Использование пяти моделей позволило провести сравнительный анализ их эффективности. Для тестирования, разработчики представили PolyTruth Disinfo Corpus — большой корпус данных, состоящий из 60,486 пар утверждений (фальшивое утверждение и фактическая коррекция), представленных на 25 языках. Данные включают различные тематики, такие как политика, здравоохранение, климат, финансы и конспирации. Многие из этих утверждений были проверены на фактность, используя расширенный MindBugs Discovery Dataset. Методы включали обучение моделей на ограниченных ресурсах и оценку их возможности работать в многоязычных условиях.
####################
## Результаты
####################
Эксперименты показали различия в поведении моделей. Модель RemBERT проявила высокую точность в целом, особенно в условиях нехватки данных. Модели mBERT и XLM показали значительные ограничения при недостатке тренировочных данных. Эти результаты указывают на то, что выбор модели зависит от конкретных условий, в том числе доступности данных и тематики дезинформации. Было проведено подробное анализирование этих отличий, чтобы выявить узкие места и потенциал моделей в многоязычных условиях.
####################
## Значимость
####################
Предложенный подход имеет значительное значение в области борьбы с международной дезинформацией. Модели, протестированные в PolyTruth Disinfo Corpus, могут использоваться в различных сферах, включая социальные сети, новостные ресурсы и политические аналитические системы. Многоязычность моделей позволяет расширить их применение за рубежом, что делает их полезными для международных организаций и правоохранительных органов. Этот подход также может способствовать развитию новых технологи
Abstract
Disinformation spreads rapidly across linguistic boundaries, yet most AI
models are still benchmarked only on English. We address this gap with a
systematic comparison of five multilingual transformer models: mBERT, XLM,
XLM-RoBERTa, RemBERT, and mT5 on a common fake-vs-true machine learning
classification task. While transformer-based language models have demonstrated
notable success in detecting disinformation in English, their effectiveness in
multilingual contexts still remains up for debate. To facilitate evaluation, we
introduce PolyTruth Disinfo Corpus, a novel corpus of 60,486 statement pairs
(false claim vs. factual correction) spanning over twenty five languages that
collectively cover five language families and a broad topical range from
politics, health, climate, finance, and conspiracy, half of which are
fact-checked disinformation claims verified by an augmented MindBugs Discovery
dataset. Our experiments revealed performance variations. Models such as
RemBERT achieved better overall accuracy, particularly excelling in
low-resource languages, whereas models like mBERT and XLM exhibit considerable
limitations when training data is scarce. We provide a discussion of these
performance patterns and implications for real-world deployment. The dataset is
publicly available on our GitHub repository to encourage further
experimentation and advancement. Our findings illuminate both the potential and
the current limitations of AI systems for multilingual disinformation
detection.