Towards Real-World Rumor Detection: Anomaly Detection Framework with Graph Supervised Contrastive Learning

2508.07205v1 cs.SI, cs.CL 2025-08-13
Авторы:

Chaoqun Cui, Caiyan Jia

Резюме на русском

## Контекст Современные методы обнаружения легенды (rumor) часто основываются на изучении структуры распространения информации в социальных сетях. Однако эти методы предполагают балансированное распределение классов, что не соответствует реальности. В социальных сетях доминирует масса нелегендарных сообщений (не-руманов), в то время как легенды (руманы) являются редким и исключительным явлением. Такое несбалансированное распределение данных создает значительные вызовы для обучения моделей. Недостаток методов, способных эффективно работать в таких условиях, подчеркивает необходимость разработки новых подходов, которые могут устойчиво работать с необычными распределениями данных. ## Метод Предлагаемый подход, Anomaly Detection framework with Graph Supervised Contrastive Learning (AD-GSCL), прикладывает усилия к решению проблемы необычной разметки. Этот метод использует аннотированные данные для определения руманов и работает с неанонтированными данными, предполагая, что они являются не-руманами. Основная концепция заключается в применении графовых методов к обучению с подкреплением, при этом графы создаются на основе характеристик социальной сети. На основе противоречивых характеристик (contrastive learning), AD-GSCL учитывает различия в распределениях между руманами и не-руманами, что позволяет лучше отличать эти классы. ## Результаты Для исследования были созданы две большие выборки данных из Weibo и Twitter. Анализ распределений руманов и не-руманов показал значительные различия в их тематических ориентациях: руманы чаще носят новостные характер, в то время как не-руманы более распространены в развлекательных сферах. Эксперименты показали, что AD-GSCL показывает высокую точность в различных условиях: балансированных данных, несбалансированных данных и условиях с небольшим количеством обучающих данных. Эти результаты подтверждают эффективность AD-GSCL в обнаружении руманов в реальных условиях. ## Значимость Предложенный подход может быть применен в различных сферах, где требуется отсеивание нелегендарных сообщений, например в медиа-мониторинге, безопасности информации и других областях. Основное преимущество AD-GSCL заключается в том, что он эффективно обнаруживает руманы даже в условиях необычного распределения данных. Это может сильно повысить точность обнаружения руманов в социальных сетях и других платформах. Будущие исследования могут направлены на расширение применения этого подхода к другим типам социальных данных и усовершенствовании его взаимодействия с другими методами обнаружения. ## Выводы Предлагаемый подход AD-GSCL доказал свою эффективность в обнаружении руманов в реальных социальных

Abstract

Current rumor detection methods based on propagation structure learning predominately treat rumor detection as a class-balanced classification task on limited labeled data. However, real-world social media data exhibits an imbalanced distribution with a minority of rumors among massive regular posts. To address the data scarcity and imbalance issues, we construct two large-scale conversation datasets from Weibo and Twitter and analyze the domain distributions. We find obvious differences between rumor and non-rumor distributions, with non-rumors mostly in entertainment domains while rumors concentrate in news, indicating the conformity of rumor detection to an anomaly detection paradigm. Correspondingly, we propose the Anomaly Detection framework with Graph Supervised Contrastive Learning (AD-GSCL). It heuristically treats unlabeled data as non-rumors and adapts graph contrastive learning for rumor detection. Extensive experiments demonstrate AD-GSCL's superiority under class-balanced, imbalanced, and few-shot conditions. Our findings provide valuable insights for real-world rumor detection featuring imbalanced data distributions.

Ссылки и действия