E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection

2508.11197v1 cs.CL, cs.AI, cs.LG, cs.SI 2025-08-19
Авторы:

Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas

Резюме на русском

#### Контекст Современное информационное пространство становится все более угрожающим местом для распространения массовой информации и нарушения прав человека. Одним из ключевых аспектов этой проблемы является распространение массовой информации, которая включает в себя различные методы, такие как ложная информация, глубокое фальсифицирование и дезинформация. Это может привести к дистанционной психологической войне, разрушению социальных связей и психологическому давлению на широкие слои общества. Для того чтобы сделать данные ситуации предсказуемыми и управляемыми, необходимо развитие специализированных методов, которые могут обнаруживать массовые информационные цепи и анализировать их в динамическом порядке. Исследование этой области является ключевым фактором для развития новых систем мониторинга и анализа, которые могут помочь в улучшении динамического мониторинга событий, включая распространение массовой информации. #### Метод E-CaTCH (Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling) является интерпретируемой и масштабируемой системой для обнаружения массовой информации. Её работа основывается на нескольких основных элементах. Во-первых, метод разбивает события на кластеры на основе текстового похожести и темпоральной близости. Затем, для каждого события, E-CaTCH извлекает текстовые и визуальные признаки с использованием предобученных моделей BERT и ResNet. Эти признаки обрабатываются с помощью внутримодального самоподстройного внимания, а затем соединяются двунаправленным кросс-модальным вниманием для образования контекстуализированных, контент-о acктеризированных представлений. Для моделирования прогрессии тематической повестки в динамическом порядке, E-CaTCH разделяет события на перекрывающиеся временные окна и использует улучшенную LSTM с элементами семантического сдвига и моментом для кодирования прогрессии. Метод также интегрирует адаптивную взвешивание классов, регуляризацию классами и тяжелые примеры, чтобы сдвинуть классификационную модель к более стабильной учительской системе. #### Результаты Исследования E-CaTCH проводились на датасетах Fakeddit, IND и COVID-19 MISINFOGRAPH. Результаты показали, что E-CaTCH превосходит состояние технологии по классическим метрикам, таким как F1-score, ROC-AUC и Precision-Recall. Особенно выделяется улучшенный результат в случаях неравновесия класса, где метод показал свою эффективность в обнаружении малочастотных классов. Cross-dataset evaluations также продемонстрировали высокую прогностическую стабильность и гибкость E-CaTCH в различных международных контекстах. ####

Abstract

Detecting multimodal misinformation on social media remains challenging due to inconsistencies between modalities, changes in temporal patterns, and substantial class imbalance. Many existing methods treat posts independently and fail to capture the event-level structure that connects them across time and modality. We propose E-CaTCH, an interpretable and scalable framework for robustly detecting misinformation. If needed, E-CaTCH clusters posts into pseudo-events based on textual similarity and temporal proximity, then processes each event independently. Within each event, textual and visual features are extracted using pre-trained BERT and ResNet encoders, refined via intra-modal self-attention, and aligned through bidirectional cross-modal attention. A soft gating mechanism fuses these representations to form contextualized, content-aware embeddings of each post. To model temporal evolution, E-CaTCH segments events into overlapping time windows and uses a trend-aware LSTM, enhanced with semantic shift and momentum signals, to encode narrative progression over time. Classification is performed at the event level, enabling better alignment with real-world misinformation dynamics. To address class imbalance and promote stable learning, the model integrates adaptive class weighting, temporal consistency regularization, and hard-example mining. The total loss is aggregated across all events. Extensive experiments on Fakeddit, IND, and COVID-19 MISINFOGRAPH demonstrate that E-CaTCH consistently outperforms state-of-the-art baselines. Cross-dataset evaluations further demonstrate its robustness, generalizability, and practical applicability across diverse misinformation scenarios.

Ссылки и действия

Связанные статьи

EHSAN: Leveraging ChatGPT in a Hybrid Framework for Arabic Aspect-Based Sentimen...

**Резюме** В статье представлена EHSAN, первая гибридная модель для арабского аспект-базированного мнения в сфере здрав...

2025-08-09