DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

2509.21787v1 cs.CV, cs.CL 2025-09-30
Авторы:

Dwip Dalal, Gautam Vashishtha, Anku Ranui, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal

Резюме на русском

## Контекст Социальные сети и онлайн-платформы становятся все более популярными, но одновременно становятся местом для распространения ненависти и злобы. Такое содержимое не только портит общественное обсуждение, но и создает значительные вопросы по поводу безопасности и человечности в цифровом пространстве. Исследователи и разработчики приложений стремятся к развитию методов, которые могут эффективно сражаться с таким злополучным содержимым. Несмотря на существующие технологии, такие как текстовые фильтры, они часто имеют ограничения в их точности и эффективности при работе с изображениями, где ненависть может быть выражена словом, знаком или даже рисунком. Таким образом, введение методов, которые могут работать с многомедийными данными, является ключевым направлением для решения этой проблемы. ## Метод Мы предлагаем **DeHate**, мультимодальный подход, основанный на технологии Stable Diffusion, чтобы бороться с ненавистью в изображениях. Наша методология включает в себя два основных модуля. Во-первых, мы используем **Digital Attention Analysis Module (DAAM)**, который может определить расположение и влияние ненависти в изображении, создавая **hate attention map**. Затем, во-вторых, мы применяем **Stable Diffusion**, чтобы генерировать водяные знаки на ненавистливых областях изображения. Эти водяные знаки не просто скрывают ненависть, но также объединяются с моделью **DeHater**, которая выступает в качестве визуально-языковой модели. Модель DeHater анализирует текстовые приглашения и совмещает их с моделью для структурирования информации, чтобы верно определить и удалить ненависть. Мы также применяем **attention-based transformer architecture**, чтобы улучшить точность распознавания и создать подробные карты ненависти. ## Результаты Мы проверили наш подход на большом многомедийном датасете, созданном специально для деформации ненависти в изображениях. В ходе экспериментов мы сравнили нашу модель с другими существующими методами. Наши результаты показали, что **DeHate** показывает высокую точность в определении и удалении ненависти в изображениях. Мы также получили сложные **hate attention maps**, которые раскрывают расположение и влияние ненависти в каждом изображении. Эти результаты подтвердили, что наш подход не только эффективен в удалении ненависти, но и может обеспечить понятную информацию о месте ее появления. ## Значимость Полученный подход может применяться в различных областях, включая мониторинг содержимого в социальных сетях, создание безопасного цифрового окружения и улучшение алгоритмов модерации контента. Наш подход имеет несколько преимуществ: он эффектив

Abstract

The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.

Ссылки и действия