Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model
2508.07209v1
cs.CL, cs.SI
2025-08-13
Авторы:
Chaoqun Cui, Siyuan Li, Kunkun Ma, Caiyan Jia
Резюме на русском
## Контекст
Проблема распространения слухов и лживых сообщений в социальных сетях является ключевой задачей модерации содержимого. Известно, что высокоэффективные Предварительно Обученные Языковые Модели (PLMs) обладают выдающимися результатами в различных задачах естественного языкового обработки. Однако их результаты на задачах модерации социальных медиа, таких как детекция слухов, часто остаются ниже ожидаемого уровня. Это может быть обусловлено несоответствием между корпусами предварительного обучения и социальными текстами, недостаточным учетом уникальных социальных символов, а также оптимизацией моделей, которая не достаточно учитывает пользовательские взаимодействия внутри распространения информации. Мотивирует разработку новых подходов повышения точности моделей распространения информации в социальных сетях.
## Метод
Предлагается новый подход, названный Post Engagement Prediction (PEP), который включает в себя продолжение предварительного обучения модели с целью моделирования взаимодействий в пользовательской сети и распространения информации. PEP предполагает обучение модели классификации, которая предсказывает связи между постами: корневые, ветвистые и родительские. Эти связи позволяют лучше представить распространение информации в социальных сетях. Для обучения и тестирования PEP, авторы создали новую большую базу данных TwitterCorpus (269 ГБ) и два датасета, Twitter и Weibo, с исходными данными об опросах и распространении сообщений. Модель SoLM, разработанная на основе этого подхода, включает в себя все слои PLM с дополнительным модулем PEP.
## Результаты
Различные эксперименты проводились на нескольких датасетах, включая Twitter и Weibo. Эксперименты показали, что PEP повышает точность распространения данных в PLM на 1.0-3.7% в зависимости от датасета и модели. Также было показано, что модель SoLM без дополнительных модулей показала высокую точность, которая не уступает современным методам. На датасетах Twitter и Weibo, SoLM достигла результатов, которые не отстают от текущих лидеров. Это подтверждает эффективность PEP в моделировании частоты и структуры взаимодействий, необходимых для задач детекции лживых сообщений.
## Значимость
Решение, представленное в статье, может быть применено в области модерации содержимого в социальных сетях, в том числе для детекции лживых сообщений, нахождения и оценки источников распространения, а также анализа структуры распространения. Особое преимущество PEP заключается в его универсальности. Он может быть применен для улучшения различных PLM в социальных сетях, даже при небольших обучающих выборках. Это может привести к расширению возможно
Abstract
Pretrained Language Models (PLMs) have excelled in various Natural Language
Processing tasks, benefiting from large-scale pretraining and self-attention
mechanism's ability to capture long-range dependencies. However, their
performance on social media application tasks like rumor detection remains
suboptimal. We attribute this to mismatches between pretraining corpora and
social texts, inadequate handling of unique social symbols, and pretraining
tasks ill-suited for modeling user engagements implicit in propagation
structures. To address these issues, we propose a continue pretraining strategy
called Post Engagement Prediction (PEP) to infuse information from propagation
structures into PLMs. PEP makes models to predict root, branch, and parent
relations between posts, capturing interactions of stance and sentiment crucial
for rumor detection. We also curate and release large-scale Twitter corpus:
TwitterCorpus (269GB text), and two unlabeled claim conversation datasets with
propagation structures (UTwitter and UWeibo). Utilizing these resources and PEP
strategy, we train a Twitter-tailored PLM called SoLM. Extensive experiments
demonstrate PEP significantly boosts rumor detection performance across
universal and social media PLMs, even in few-shot scenarios. On benchmark
datasets, PEP enhances baseline models by 1.0-3.7\% accuracy, even enabling it
to outperform current state-of-the-art methods on multiple datasets. SoLM
alone, without high-level modules, also achieves competitive results,
highlighting the strategy's effectiveness in learning discriminative post
interaction features.
Ссылки и действия
Дополнительные ресурсы: