DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
2509.21787v1
cs.CV, cs.CL
2025-09-30
Авторы:
Dwip Dalal, Gautam Vashishtha, Anku Ranui, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
Резюме на русском
## Контекст
Социальные сети и онлайн-платформы становятся все более популярными, но одновременно становятся местом для распространения ненависти и злобы. Такое содержимое не только портит общественное обсуждение, но и создает значительные вопросы по поводу безопасности и человечности в цифровом пространстве. Исследователи и разработчики приложений стремятся к развитию методов, которые могут эффективно сражаться с таким злополучным содержимым. Несмотря на существующие технологии, такие как текстовые фильтры, они часто имеют ограничения в их точности и эффективности при работе с изображениями, где ненависть может быть выражена словом, знаком или даже рисунком. Таким образом, введение методов, которые могут работать с многомедийными данными, является ключевым направлением для решения этой проблемы.
## Метод
Мы предлагаем **DeHate**, мультимодальный подход, основанный на технологии Stable Diffusion, чтобы бороться с ненавистью в изображениях. Наша методология включает в себя два основных модуля. Во-первых, мы используем **Digital Attention Analysis Module (DAAM)**, который может определить расположение и влияние ненависти в изображении, создавая **hate attention map**. Затем, во-вторых, мы применяем **Stable Diffusion**, чтобы генерировать водяные знаки на ненавистливых областях изображения. Эти водяные знаки не просто скрывают ненависть, но также объединяются с моделью **DeHater**, которая выступает в качестве визуально-языковой модели. Модель DeHater анализирует текстовые приглашения и совмещает их с моделью для структурирования информации, чтобы верно определить и удалить ненависть. Мы также применяем **attention-based transformer architecture**, чтобы улучшить точность распознавания и создать подробные карты ненависти.
## Результаты
Мы проверили наш подход на большом многомедийном датасете, созданном специально для деформации ненависти в изображениях. В ходе экспериментов мы сравнили нашу модель с другими существующими методами. Наши результаты показали, что **DeHate** показывает высокую точность в определении и удалении ненависти в изображениях. Мы также получили сложные **hate attention maps**, которые раскрывают расположение и влияние ненависти в каждом изображении. Эти результаты подтвердили, что наш подход не только эффективен в удалении ненависти, но и может обеспечить понятную информацию о месте ее появления.
## Значимость
Полученный подход может применяться в различных областях, включая мониторинг содержимого в социальных сетях, создание безопасного цифрового окружения и улучшение алгоритмов модерации контента. Наш подход имеет несколько преимуществ: он эффектив
Abstract
The rise in harmful online content not only distorts public discourse but
also poses significant challenges to maintaining a healthy digital environment.
In response to this, we introduce a multimodal dataset uniquely crafted for
identifying hate in digital content. Central to our methodology is the
innovative application of watermarked, stability-enhanced, stable diffusion
techniques combined with the Digital Attention Analysis Module (DAAM). This
combination is instrumental in pinpointing the hateful elements within images,
thereby generating detailed hate attention maps, which are used to blur these
regions from the image, thereby removing the hateful sections of the image. We
release this data set as a part of the dehate shared task. This paper also
describes the details of the shared task. Furthermore, we present DeHater, a
vision-language model designed for multimodal dehatification tasks. Our
approach sets a new standard in AI-driven image hate detection given textual
prompts, contributing to the development of more ethical AI applications in
social media.
Ссылки и действия
Дополнительные ресурсы: