Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations

2508.05097v1 cs.CL 2025-08-09

Авторы:

Aditya Kishore, Gaurav Kumar, Jasabanta Patro

Резюме на русском

Многорежимная манипуляция информацией, объединяющая текстовые и изображения, становится всё более распространенной проблемой для систем факт-чеккинга. Эти системы часто ориентированы только на текст, что ограничивает их эффективность. Для решения данной проблемы представлен фреймворк "MultiCheck" — универсальная модель, которая объединяет отдельные энкодеры для текста и изображений с модулем фузирования, реализующим элементные взаимодействия между модалами. Классификационный головной модуль предсказывает достоверность утверждений, опираясь на контрастное обучение, стремящееся выравнивать семантику пар утверждения и доказательств в общем пространстве векторов. На датасете Factify 2, "MultiCheck" достиг значительного увеличения весового F1-метрики до 0,84 по сравнению с базой, показав высокую эффективность в многорежимном факт-чеккинге. Результаты подтверждают ценность подхода через явную многорежимную рационализацию и демонстрируют возможность использования модели в решении реальных задач факт-чеккинга.

Abstract

The growing rate of multimodal misinformation, where claims are supported by both text and images, poses significant challenges to fact-checking systems that rely primarily on textual evidence. In this work, we have proposed a unified framework for fine-grained multimodal fact verification called "MultiCheck", designed to reason over structured textual and visual signals. Our architecture combines dedicated encoders for text and images with a fusion module that captures cross-modal relationships using element-wise interactions. A classification head then predicts the veracity of a claim, supported by a contrastive learning objective that encourages semantic alignment between claim-evidence pairs in a shared latent space. We evaluate our approach on the Factify 2 dataset, achieving a weighted F1 score of 0.84, substantially outperforming the baseline. These results highlight the effectiveness of explicit multimodal reasoning and demonstrate the potential of our approach for scalable and interpretable fact-checking in complex, real-world scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Nexus: Higher-Order Attention Mechanisms in Transformers

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation

SQuARE: Structured Query & Adaptive Retrieval Engine For Tabular Formats

RapidUn: Influence-Driven Parameter Reweighting for Efficient Large Language Mod...

Навигация