E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection
2508.11197v1
cs.CL, cs.AI, cs.LG, cs.SI
2025-08-19
Авторы:
Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas
Резюме на русском
#### Контекст
Современное информационное пространство становится все более угрожающим местом для распространения массовой информации и нарушения прав человека. Одним из ключевых аспектов этой проблемы является распространение массовой информации, которая включает в себя различные методы, такие как ложная информация, глубокое фальсифицирование и дезинформация. Это может привести к дистанционной психологической войне, разрушению социальных связей и психологическому давлению на широкие слои общества. Для того чтобы сделать данные ситуации предсказуемыми и управляемыми, необходимо развитие специализированных методов, которые могут обнаруживать массовые информационные цепи и анализировать их в динамическом порядке. Исследование этой области является ключевым фактором для развития новых систем мониторинга и анализа, которые могут помочь в улучшении динамического мониторинга событий, включая распространение массовой информации.
#### Метод
E-CaTCH (Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling) является интерпретируемой и масштабируемой системой для обнаружения массовой информации. Её работа основывается на нескольких основных элементах. Во-первых, метод разбивает события на кластеры на основе текстового похожести и темпоральной близости. Затем, для каждого события, E-CaTCH извлекает текстовые и визуальные признаки с использованием предобученных моделей BERT и ResNet. Эти признаки обрабатываются с помощью внутримодального самоподстройного внимания, а затем соединяются двунаправленным кросс-модальным вниманием для образования контекстуализированных, контент-о acктеризированных представлений. Для моделирования прогрессии тематической повестки в динамическом порядке, E-CaTCH разделяет события на перекрывающиеся временные окна и использует улучшенную LSTM с элементами семантического сдвига и моментом для кодирования прогрессии. Метод также интегрирует адаптивную взвешивание классов, регуляризацию классами и тяжелые примеры, чтобы сдвинуть классификационную модель к более стабильной учительской системе.
#### Результаты
Исследования E-CaTCH проводились на датасетах Fakeddit, IND и COVID-19 MISINFOGRAPH. Результаты показали, что E-CaTCH превосходит состояние технологии по классическим метрикам, таким как F1-score, ROC-AUC и Precision-Recall. Особенно выделяется улучшенный результат в случаях неравновесия класса, где метод показал свою эффективность в обнаружении малочастотных классов. Cross-dataset evaluations также продемонстрировали высокую прогностическую стабильность и гибкость E-CaTCH в различных международных контекстах.
####
Abstract
Detecting multimodal misinformation on social media remains challenging due
to inconsistencies between modalities, changes in temporal patterns, and
substantial class imbalance. Many existing methods treat posts independently
and fail to capture the event-level structure that connects them across time
and modality. We propose E-CaTCH, an interpretable and scalable framework for
robustly detecting misinformation. If needed, E-CaTCH clusters posts into
pseudo-events based on textual similarity and temporal proximity, then
processes each event independently. Within each event, textual and visual
features are extracted using pre-trained BERT and ResNet encoders, refined via
intra-modal self-attention, and aligned through bidirectional cross-modal
attention. A soft gating mechanism fuses these representations to form
contextualized, content-aware embeddings of each post. To model temporal
evolution, E-CaTCH segments events into overlapping time windows and uses a
trend-aware LSTM, enhanced with semantic shift and momentum signals, to encode
narrative progression over time. Classification is performed at the event
level, enabling better alignment with real-world misinformation dynamics. To
address class imbalance and promote stable learning, the model integrates
adaptive class weighting, temporal consistency regularization, and hard-example
mining. The total loss is aggregated across all events. Extensive experiments
on Fakeddit, IND, and COVID-19 MISINFOGRAPH demonstrate that E-CaTCH
consistently outperforms state-of-the-art baselines. Cross-dataset evaluations
further demonstrate its robustness, generalizability, and practical
applicability across diverse misinformation scenarios.