📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A New Dataset and Benchmark for Grounding Multimodal Misinformation

2025-09-12

Авторы:

Bingjian Yang, Danni Xu, Kaipeng Niu, Wenxuan Liu, Zheng Wang, Mohan Kankanhalli

############################################################################ ## Контекст ############################################################################ В современной интернет-среде распространение многомодальной информационной массы, включающей текст, звук и визуальные элементы, приобретает все большую значимость. Однако этот рост сопряжен с ростом распространения многомодальной информационной массы, включающей текст, звук и визуальные элементы, приобретает все большую значимость. Однако этот рост сопряжен с ростом распространения неточных или злонамеренных сообщений, которые могут нарушать общественную безопасность и формировать неверные убеждения. Изучение такой многомодальной информации требует новых подходов, которые могут обеспечить более глубокую интерпретацию и выявление неточностей в разных модальностях. На данный момент, существующие методы анализа информации, поставляемой в многомодальном формате, ограничиваются либо бинарным классификацией, либо локализацией неточностей в отдельных модальных компонентах. Эти подходы имеют ограниченную транспарентность и не способствуют достоверному исследованию причин и механизмов формирования таких сообщений. Мотивация для разработки новых методологий локализации неточностей в многомодальных сообщениях такова, чтобы повысить традиционные подходы к обнаружению и анализу такой информации. ############################################################################ ## Метод ############################################################################ Для решения проблемы локализации многомодальной информации, которая может быть неточной или злонамеренной, предлагается новый подход, основанный на методах визуальных языках (VLM). Используется комбинация систем визуального понимания и технологий вопросительно-ответных систем (QA), чтобы создать метод, который не только способен обнаруживать неточные сообщения, но и локализовывать конкретные места, в которых происходит установка неточной информации. Ествует два ключевых элемента в данном подходе: 1) создание модели, которая способна работать с несколькими модальными компонентами (текст, звук, видео) параллельно, и 2) использование вопросительно-ответных систем для получения точности в определении места неточности. Метод также использует нейронные сети, которые могут распознавать контекстуальные связи между модальными компонентами. Это позволяет создавать более точные модели для обнаружения и распознавания неточностей в многомодальных сообщениях. ############################################################################ ## Результаты ############################################################################ Для оценки эффективности разработанного подхода был проведен набор экспериментов на новом датасете GroundLie360. Этот датасет включает в себя широкий спектр многомодальных сообщений, поставляемых в различных форматах (текст, звук, видео). Эксперименты показали, что пред

Annotation:

The proliferation of online misinformation videos poses serious societal risks. Current datasets and detection methods primarily target binary classification or single-modality localization based on post-processed data, lacking the interpretability needed to counter persuasive misinformation. In this paper, we introduce the task of Grounding Multimodal Misinformation (GroundMM), which verifies multimodal content and localizes misleading segments across modalities. We present the first real-world...

ID: 2509.08008v1 cs.SI, cs.AI, cs.MM

arXiv PDF