A New Dataset and Benchmark for Grounding Multimodal Misinformation

2509.08008v1 cs.SI, cs.AI, cs.MM 2025-09-12
Авторы:

Bingjian Yang, Danni Xu, Kaipeng Niu, Wenxuan Liu, Zheng Wang, Mohan Kankanhalli

Резюме на русском

############################################################################ ## Контекст ############################################################################ В современной интернет-среде распространение многомодальной информационной массы, включающей текст, звук и визуальные элементы, приобретает все большую значимость. Однако этот рост сопряжен с ростом распространения многомодальной информационной массы, включающей текст, звук и визуальные элементы, приобретает все большую значимость. Однако этот рост сопряжен с ростом распространения неточных или злонамеренных сообщений, которые могут нарушать общественную безопасность и формировать неверные убеждения. Изучение такой многомодальной информации требует новых подходов, которые могут обеспечить более глубокую интерпретацию и выявление неточностей в разных модальностях. На данный момент, существующие методы анализа информации, поставляемой в многомодальном формате, ограничиваются либо бинарным классификацией, либо локализацией неточностей в отдельных модальных компонентах. Эти подходы имеют ограниченную транспарентность и не способствуют достоверному исследованию причин и механизмов формирования таких сообщений. Мотивация для разработки новых методологий локализации неточностей в многомодальных сообщениях такова, чтобы повысить традиционные подходы к обнаружению и анализу такой информации. ############################################################################ ## Метод ############################################################################ Для решения проблемы локализации многомодальной информации, которая может быть неточной или злонамеренной, предлагается новый подход, основанный на методах визуальных языках (VLM). Используется комбинация систем визуального понимания и технологий вопросительно-ответных систем (QA), чтобы создать метод, который не только способен обнаруживать неточные сообщения, но и локализовывать конкретные места, в которых происходит установка неточной информации. Ествует два ключевых элемента в данном подходе: 1) создание модели, которая способна работать с несколькими модальными компонентами (текст, звук, видео) параллельно, и 2) использование вопросительно-ответных систем для получения точности в определении места неточности. Метод также использует нейронные сети, которые могут распознавать контекстуальные связи между модальными компонентами. Это позволяет создавать более точные модели для обнаружения и распознавания неточностей в многомодальных сообщениях. ############################################################################ ## Результаты ############################################################################ Для оценки эффективности разработанного подхода был проведен набор экспериментов на новом датасете GroundLie360. Этот датасет включает в себя широкий спектр многомодальных сообщений, поставляемых в различных форматах (текст, звук, видео). Эксперименты показали, что пред

Abstract

The proliferation of online misinformation videos poses serious societal risks. Current datasets and detection methods primarily target binary classification or single-modality localization based on post-processed data, lacking the interpretability needed to counter persuasive misinformation. In this paper, we introduce the task of Grounding Multimodal Misinformation (GroundMM), which verifies multimodal content and localizes misleading segments across modalities. We present the first real-world dataset for this task, GroundLie360, featuring a taxonomy of misinformation types, fine-grained annotations across text, speech, and visuals, and validation with Snopes evidence and annotator reasoning. We also propose a VLM-based, QA-driven baseline, FakeMark, using single- and cross-modal cues for effective detection and grounding. Our experiments highlight the challenges of this task and lay a foundation for explainable multimodal misinformation detection.

Ссылки и действия