Labels or Input? Rethinking Augmentation in Multimodal Hate Detection
2508.11808v1
cs.CV, cs.AI, cs.CL, cs.CY, cs.MM, I.2.7; I.2.10
2025-08-19
Авторы:
Sahajpreet Singh, Rongxin Ouyang, Subhayan Mukerjee, Kokil Jaidka
Резюме на русском
#### Контекст
Современное веб-пространство поsылает значительные вызовы для моделей визионно-языковых систем (Vision-Language Models, VLMs) при обнаружении враждебного контента, такого как хейт-спич, где формируется вредное воздействие скрытым образом в контексте юмора или сатиры. Существующие модели часто недостаточно гибки в плане настройки входных данных и структуры задач. Кроме того, их уязвимость к неявному хейт-спичу ограничивает их эффективность в ситуациях, где тонкость взаимодействия текста и изображения ключом к пониманию тонких нюансов. В статье предлагается подход, который направляется на улучшение обнаружения хейт-спича с помощью гибкого проектирования моделей и синтетических данных.
#### Метод
Методология основывается на двух основных компонентах. Во-первых, структурированные предложения (prompts), которые позволяют контролировать уровень гибкости в обучении и настройке системы. Во-вторых, многоагентная система, сочетающая в себе визуальную и языковую модели (LLM-VLM), для генерации синтетических данных. Эта система генерирует 2479 противоположных к хейт-спичу модификаций мемов, изолируя и переписывая хейт-спические модификации. Это улучшает обнаружение и снижает спуфинг, позволяя модели лучше ориентироваться на различные контексты.
#### Результаты
Используя данные из различных моделей (включая InternVL2), авторы проводили эксперименты для оценки эффективности своих подходов. Отчет о первом подходе, связанном с оптимизацией предложений, показал улучшение устойчивости модели даже в моделях меньшего размера. Отчет о данных, сгенерированных многоагентной системой, показал уменьшение ненужных корреляций и улучшение генерализируемости классификатора.
#### Значимость
Подходы, предлагаемые в статье, могут применяться в области мониторинга хейт-спича в социальных сетях, интерактивном анализе контента, а также в поиске ненужных зависимостей в данных. Они выделяются тем, что улучшают робастность моделей, снижая зависимость от их размера, и позволяют более эффективно учитывать контекст в обнаружении хейт-спича.
#### Выводы
В результате исследования было доказано, что гибкость в структуре задачи и в размере модели, а также целенаправленная генерация синтетических данных, являются ключевыми факторами для улучшения обнаружения хейт-спича. Будущие исследования будут сфокусированы на расширении этого подхода на другие типы враждебного контента и создании более тонких методов для обнаружения неявного негативного контента в реальных сетях.
Abstract
The modern web is saturated with multimodal content, intensifying the
challenge of detecting hateful memes, where harmful intent is often conveyed
through subtle interactions between text and image under the guise of humor or
satire. While recent advances in Vision-Language Models (VLMs) show promise,
these models lack support for fine-grained supervision and remain susceptible
to implicit hate speech. In this paper, we present a dual-pronged approach to
improve multimodal hate detection. First, we propose a prompt optimization
framework that systematically varies prompt structure, supervision granularity,
and training modality. We show that prompt design and label scaling both
influence performance, with structured prompts improving robustness even in
small models, and InternVL2 achieving the best F1-scores across binary and
scaled settings. Second, we introduce a multimodal data augmentation pipeline
that generates 2,479 counterfactually neutral memes by isolating and rewriting
the hateful modality. This pipeline, powered by a multi-agent LLM-VLM setup,
successfully reduces spurious correlations and improves classifier
generalization. Our approaches inspire new directions for building synthetic
data to train robust and fair vision-language models. Our findings demonstrate
that prompt structure and data composition are as critical as model size, and
that targeted augmentation can support more trustworthy and context-sensitive
hate detection.