Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model

2508.07209v1 cs.CL, cs.SI 2025-08-13
Авторы:

Chaoqun Cui, Siyuan Li, Kunkun Ma, Caiyan Jia

Резюме на русском

## Контекст Проблема распространения слухов и лживых сообщений в социальных сетях является ключевой задачей модерации содержимого. Известно, что высокоэффективные Предварительно Обученные Языковые Модели (PLMs) обладают выдающимися результатами в различных задачах естественного языкового обработки. Однако их результаты на задачах модерации социальных медиа, таких как детекция слухов, часто остаются ниже ожидаемого уровня. Это может быть обусловлено несоответствием между корпусами предварительного обучения и социальными текстами, недостаточным учетом уникальных социальных символов, а также оптимизацией моделей, которая не достаточно учитывает пользовательские взаимодействия внутри распространения информации. Мотивирует разработку новых подходов повышения точности моделей распространения информации в социальных сетях. ## Метод Предлагается новый подход, названный Post Engagement Prediction (PEP), который включает в себя продолжение предварительного обучения модели с целью моделирования взаимодействий в пользовательской сети и распространения информации. PEP предполагает обучение модели классификации, которая предсказывает связи между постами: корневые, ветвистые и родительские. Эти связи позволяют лучше представить распространение информации в социальных сетях. Для обучения и тестирования PEP, авторы создали новую большую базу данных TwitterCorpus (269 ГБ) и два датасета, Twitter и Weibo, с исходными данными об опросах и распространении сообщений. Модель SoLM, разработанная на основе этого подхода, включает в себя все слои PLM с дополнительным модулем PEP. ## Результаты Различные эксперименты проводились на нескольких датасетах, включая Twitter и Weibo. Эксперименты показали, что PEP повышает точность распространения данных в PLM на 1.0-3.7% в зависимости от датасета и модели. Также было показано, что модель SoLM без дополнительных модулей показала высокую точность, которая не уступает современным методам. На датасетах Twitter и Weibo, SoLM достигла результатов, которые не отстают от текущих лидеров. Это подтверждает эффективность PEP в моделировании частоты и структуры взаимодействий, необходимых для задач детекции лживых сообщений. ## Значимость Решение, представленное в статье, может быть применено в области модерации содержимого в социальных сетях, в том числе для детекции лживых сообщений, нахождения и оценки источников распространения, а также анализа структуры распространения. Особое преимущество PEP заключается в его универсальности. Он может быть применен для улучшения различных PLM в социальных сетях, даже при небольших обучающих выборках. Это может привести к расширению возможно

Abstract

Pretrained Language Models (PLMs) have excelled in various Natural Language Processing tasks, benefiting from large-scale pretraining and self-attention mechanism's ability to capture long-range dependencies. However, their performance on social media application tasks like rumor detection remains suboptimal. We attribute this to mismatches between pretraining corpora and social texts, inadequate handling of unique social symbols, and pretraining tasks ill-suited for modeling user engagements implicit in propagation structures. To address these issues, we propose a continue pretraining strategy called Post Engagement Prediction (PEP) to infuse information from propagation structures into PLMs. PEP makes models to predict root, branch, and parent relations between posts, capturing interactions of stance and sentiment crucial for rumor detection. We also curate and release large-scale Twitter corpus: TwitterCorpus (269GB text), and two unlabeled claim conversation datasets with propagation structures (UTwitter and UWeibo). Utilizing these resources and PEP strategy, we train a Twitter-tailored PLM called SoLM. Extensive experiments demonstrate PEP significantly boosts rumor detection performance across universal and social media PLMs, even in few-shot scenarios. On benchmark datasets, PEP enhances baseline models by 1.0-3.7\% accuracy, even enabling it to outperform current state-of-the-art methods on multiple datasets. SoLM alone, without high-level modules, also achieves competitive results, highlighting the strategy's effectiveness in learning discriminative post interaction features.

Ссылки и действия