A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations
2508.11141v1
cs.CV, cs.AI, cs.CL
2025-08-19
Авторы:
Bin Ma, Yifei Zhang, Yongjin Xian, Qi Li, Linna Zhou, Gongxun Miao
Резюме на русском
#### Контекст
Румурная деятельность в современных социальных сетях широко распространена и может иметь серьезные последствия, в том числе ущерб репутации, финансовые потери и даже угрозы безопасности. Однако автоматическое распознавание румурных сообщений остается вызовом, в связи с тем, что люди часто выражают свои мнения в виде комбинации текста и изображений, которые могут содержать ключевую информацию для распознавания румурности. Настоящая статья направлена на изучение этих проблем, с целью разработать более эффективный подход к распознаванию румурных сообщений, используя методы мультискалевого анализа и контрастного обучения.
#### Метод
Метод, предложенный в статье, основывается на методе контрастного обучения, а именно на алгоритме Multi-scale Image and Context Correlation exploration (MICC). Основной идеей является создание объединенных семантических векторов для текста и многомерных образов с помощью SCLIP-энкодера. Этот энкодер обучается с помощью метода contrastive pretraining, что позволяет измерить взаимную связь текста и изображений через dot-product similarity. Далее, введен модуль Cross-Modal Multi-Scale Alignment, который использует Top-K selection strategy для выделения наиболее релевантных областей изображений в контексте текста. Это достигается с помощью cross-modal relevance matrix и максимизации mutual information. Наконец, scale-aware fusion network используется для объединения многомерных фичей изображений с глобальными текстовыми фичами, присваивая адаптивные весы на основе семантической важности и cross-modal relevance.
#### Результаты
Проведены эксперименты на двух реальных датасетах, чтобы оценить эффективность предложенного метода. Результаты показали, что MICC существенно превосходит существующие методы в задаче распознавания румурных сообщений. Особенно выдающимися результатами оказалось улучшение accuracy, F1-score и recall. Эти результаты подтверждают многомерность и эффективность применения контрастного обучения в задачах кросс-модального распознавания.
#### Значимость
Предложенная модель может быть применена в различных сферах, таких как мониторинг социальных сетей, борьба с массовыми паничными и распространением вирусов информации. Основные преимущества MICC заключаются в том, что он учитывает многомерные связи между текстом и изображениями, обеспечивая более точное и достоверное распознавание румурных сообщений. Потенциальное влияние метода заключается в повышении точности распознавания и уменьшении ложных срабатываний, что может существенно повысить качество работы моделей в приложениях в режиме реального времени.
#### Выводы
Результаты предложенного метода MICC показывают, что контрастное обучение может значительно повысить эффективность распознавания румурных соо
Abstract
Existing rumor detection methods often neglect the content within images as
well as the inherent relationships between contexts and images across different
visual scales, thereby resulting in the loss of critical information pertinent
to rumor identification. To address these issues, this paper presents a novel
cross-modal rumor detection scheme based on contrastive learning, namely the
Multi-scale Image and Context Correlation exploration algorithm (MICC).
Specifically, we design an SCLIP encoder to generate unified semantic
embeddings for text and multi-scale image patches through contrastive
pretraining, enabling their relevance to be measured via dot-product
similarity. Building upon this, a Cross-Modal Multi-Scale Alignment module is
introduced to identify image regions most relevant to the textual semantics,
guided by mutual information maximization and the information bottleneck
principle, through a Top-K selection strategy based on a cross-modal relevance
matrix constructed between the text and multi-scale image patches. Moreover, a
scale-aware fusion network is designed to integrate the highly correlated
multi-scale image features with global text features by assigning adaptive
weights to image regions based on their semantic importance and cross-modal
relevance. The proposed methodology has been extensively evaluated on two
real-world datasets. The experimental results demonstrate that it achieves a
substantial performance improvement over existing state-of-the-art approaches
in rumor detection, highlighting its effectiveness and potential for practical
applications.
Ссылки и действия
Дополнительные ресурсы: