Graph Representation Learning with Massive Unlabeled Data for Rumor Detection
2508.04252v1
cs.SI, cs.CL
2025-08-09
Авторы:
Chaoqun Cui, Caiyan Jia
Резюме на русском
Данная исследовательская работа опирается на рост распространения слухов через социальные сети, которые наносят великолепный ущерб обществу и экономике. Несмотря на развитие методов обнаружения слухов, существующие подходы сталкиваются с проблемами, такими как недостаточность больших объемов меток данных для обучения, что приводит к понижению общей точности и ухудшению работы моделей на новых событиях. Работа предлагает решение этой проблемы, используя обширные данные без меток, собранные с платформ Weibo и Twitter, структурой распространения твитов. Данные были использованы для улучшения семантических способностей моделей графового представления. В работе применены три метода самостоятельного обучения графов (InfoGraph, JOAO, GraphMAE) под двумя универсальными стратегиями обучения. Наконец, авторы создали большую 10-летнюю выборку данных слухов с различных тем, чтобы уменьшить разницу во времени и тематике между обучающими данными и реальными слухами. Исследование показало, что самостоятельные методы графового обучения превосходят специализированные подходы для обнаружения слухов и демонстрируют высокую общеупотребительность, даже при небольших объемах меток.
Abstract
With the development of social media, rumors spread quickly, cause great harm
to society and economy. Thereby, many effective rumor detection methods have
been developed, among which the rumor propagation structure learning based
methods are particularly effective compared to other methods. However, the
existing methods still suffer from many issues including the difficulty to
obtain large-scale labeled rumor datasets, which leads to the low
generalization ability and the performance degeneration on new events since
rumors are time-critical and usually appear with hot topics or newly emergent
events. In order to solve the above problems, in this study, we used
large-scale unlabeled topic datasets crawled from the social media platform
Weibo and Twitter with claim propagation structure to improve the semantic
learning ability of a graph reprentation learing model on various topics. We
use three typical graph self-supervised methods, InfoGraph, JOAO and GraphMAE
in two commonly used training strategies, to verify the performance of general
graph semi-supervised methods in rumor detection tasks. In addition, for
alleviating the time and topic difference between unlabeled topic data and
rumor data, we also collected a rumor dataset covering a variety of topics over
a decade (10-year ago from 2022) from the Weibo rumor-refuting platform. Our
experiments show that these general graph self-supervised learning methods
outperform previous methods specifically designed for rumor detection tasks and
achieve good performance under few-shot conditions, demonstrating the better
generalization ability with the help of our massive unlabeled topic dataset.
Ссылки и действия
Дополнительные ресурсы: