Towards Real-World Rumor Detection: Anomaly Detection Framework with Graph Supervised Contrastive Learning
2508.07205v1
cs.SI, cs.CL
2025-08-13
Авторы:
Chaoqun Cui, Caiyan Jia
Резюме на русском
## Контекст
Современные методы обнаружения легенды (rumor) часто основываются на изучении структуры распространения информации в социальных сетях. Однако эти методы предполагают балансированное распределение классов, что не соответствует реальности. В социальных сетях доминирует масса нелегендарных сообщений (не-руманов), в то время как легенды (руманы) являются редким и исключительным явлением. Такое несбалансированное распределение данных создает значительные вызовы для обучения моделей. Недостаток методов, способных эффективно работать в таких условиях, подчеркивает необходимость разработки новых подходов, которые могут устойчиво работать с необычными распределениями данных.
## Метод
Предлагаемый подход, Anomaly Detection framework with Graph Supervised Contrastive Learning (AD-GSCL), прикладывает усилия к решению проблемы необычной разметки. Этот метод использует аннотированные данные для определения руманов и работает с неанонтированными данными, предполагая, что они являются не-руманами. Основная концепция заключается в применении графовых методов к обучению с подкреплением, при этом графы создаются на основе характеристик социальной сети. На основе противоречивых характеристик (contrastive learning), AD-GSCL учитывает различия в распределениях между руманами и не-руманами, что позволяет лучше отличать эти классы.
## Результаты
Для исследования были созданы две большие выборки данных из Weibo и Twitter. Анализ распределений руманов и не-руманов показал значительные различия в их тематических ориентациях: руманы чаще носят новостные характер, в то время как не-руманы более распространены в развлекательных сферах. Эксперименты показали, что AD-GSCL показывает высокую точность в различных условиях: балансированных данных, несбалансированных данных и условиях с небольшим количеством обучающих данных. Эти результаты подтверждают эффективность AD-GSCL в обнаружении руманов в реальных условиях.
## Значимость
Предложенный подход может быть применен в различных сферах, где требуется отсеивание нелегендарных сообщений, например в медиа-мониторинге, безопасности информации и других областях. Основное преимущество AD-GSCL заключается в том, что он эффективно обнаруживает руманы даже в условиях необычного распределения данных. Это может сильно повысить точность обнаружения руманов в социальных сетях и других платформах. Будущие исследования могут направлены на расширение применения этого подхода к другим типам социальных данных и усовершенствовании его взаимодействия с другими методами обнаружения.
## Выводы
Предлагаемый подход AD-GSCL доказал свою эффективность в обнаружении руманов в реальных социальных
Abstract
Current rumor detection methods based on propagation structure learning
predominately treat rumor detection as a class-balanced classification task on
limited labeled data. However, real-world social media data exhibits an
imbalanced distribution with a minority of rumors among massive regular posts.
To address the data scarcity and imbalance issues, we construct two large-scale
conversation datasets from Weibo and Twitter and analyze the domain
distributions. We find obvious differences between rumor and non-rumor
distributions, with non-rumors mostly in entertainment domains while rumors
concentrate in news, indicating the conformity of rumor detection to an anomaly
detection paradigm. Correspondingly, we propose the Anomaly Detection framework
with Graph Supervised Contrastive Learning (AD-GSCL). It heuristically treats
unlabeled data as non-rumors and adapts graph contrastive learning for rumor
detection. Extensive experiments demonstrate AD-GSCL's superiority under
class-balanced, imbalanced, and few-shot conditions. Our findings provide
valuable insights for real-world rumor detection featuring imbalanced data
distributions.
Ссылки и действия
Дополнительные ресурсы: