PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

2509.10737v1 cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3 2025-09-17

Авторы:

Zaur Gouliev, Jennifer Waters, Chengqian Wang

Резюме на русском

#################### ## Контекст #################### Распространение дезинформации превышает границы языков и культур, что создает сложные вызовы для моделей искусственного интеллекта. Хотя transformer-based language models показали замечательные результаты в обнаружении дезинформации на языке английском, их эффективность в многоязычных условиях остается неясной. Этот факт мотивирует исследователей расширить гибкость и полноту моделей, чтобы они могли анализировать дезинформацию на разных языках. Основной мотивацией является необходимость создания моделей, которые могут правильно различать фальшивые утверждения от истинных в разных языковых и культурных контекстах, помогая таким образом бороться с распространением дезинформации. #################### ## Метод #################### Для решения этой проблемы авторы предлагают систематическую оценку пяти моделей трансформеров: mBERT, XLM, XLM-RoBERTa, RemBERT и mT5, примененных к задаче классификации "фальшивого утверждения против истинного". Использование пяти моделей позволило провести сравнительный анализ их эффективности. Для тестирования, разработчики представили PolyTruth Disinfo Corpus — большой корпус данных, состоящий из 60,486 пар утверждений (фальшивое утверждение и фактическая коррекция), представленных на 25 языках. Данные включают различные тематики, такие как политика, здравоохранение, климат, финансы и конспирации. Многие из этих утверждений были проверены на фактность, используя расширенный MindBugs Discovery Dataset. Методы включали обучение моделей на ограниченных ресурсах и оценку их возможности работать в многоязычных условиях. #################### ## Результаты #################### Эксперименты показали различия в поведении моделей. Модель RemBERT проявила высокую точность в целом, особенно в условиях нехватки данных. Модели mBERT и XLM показали значительные ограничения при недостатке тренировочных данных. Эти результаты указывают на то, что выбор модели зависит от конкретных условий, в том числе доступности данных и тематики дезинформации. Было проведено подробное анализирование этих отличий, чтобы выявить узкие места и потенциал моделей в многоязычных условиях. #################### ## Значимость #################### Предложенный подход имеет значительное значение в области борьбы с международной дезинформацией. Модели, протестированные в PolyTruth Disinfo Corpus, могут использоваться в различных сферах, включая социальные сети, новостные ресурсы и политические аналитические системы. Многоязычность моделей позволяет расширить их применение за рубежом, что делает их полезными для международных организаций и правоохранительных органов. Этот подход также может способствовать развитию новых технологи

Abstract

Disinformation spreads rapidly across linguistic boundaries, yet most AI models are still benchmarked only on English. We address this gap with a systematic comparison of five multilingual transformer models: mBERT, XLM, XLM-RoBERTa, RemBERT, and mT5 on a common fake-vs-true machine learning classification task. While transformer-based language models have demonstrated notable success in detecting disinformation in English, their effectiveness in multilingual contexts still remains up for debate. To facilitate evaluation, we introduce PolyTruth Disinfo Corpus, a novel corpus of 60,486 statement pairs (false claim vs. factual correction) spanning over twenty five languages that collectively cover five language families and a broad topical range from politics, health, climate, finance, and conspiracy, half of which are fact-checked disinformation claims verified by an augmented MindBugs Discovery dataset. Our experiments revealed performance variations. Models such as RemBERT achieved better overall accuracy, particularly excelling in low-resource languages, whereas models like mBERT and XLM exhibit considerable limitations when training data is scarce. We provide a discussion of these performance patterns and implications for real-world deployment. The dataset is publicly available on our GitHub repository to encourage further experimentation and advancement. Our findings illuminate both the potential and the current limitations of AI systems for multilingual disinformation detection.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Beyond Long Context: When Semantics Matter More than Tokens

Навигация