MM-HSD: Multi-Modal Hate Speech Detection in Videos
2508.20546v1
cs.MM, cs.AI
2025-08-30
Авторы:
Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro
Резюме на русском
#### Контекст
Область исследования — обнаружение ненавистных высказываний (ненавистного говорения, hate speech) в цифровых пространствах. Ненавистное говорение, выражаемое в тексте, аудио и видео, является важной проблемой социальных сетей, приложений мгновенных сообщений и других платформах. До сих пор, большинство исследований фокусируются на текстовом ненавистном говорении, значительно ограничивая понимание зависимости и взаимодействия с другими модальностями. Особенно видно это в видео, где сочетание аудио, визуальных элементов (в том числе текста на экране) и аудио может давать ключевые подсказки для точного обнаружения ненавистных высказываний. Недостаток существующих методов в том, что они не учитывают взаимодействия между различными модальностями, что приводит к потери полезной информации. Мотивация — разработать модель, которая учитывает не только текст, но и другие модальности, объединяя их в единую модель для эффективного обнаружения ненавистных высказываний.
#### Метод
Мы предлагаем MM-HSD — модель, которая интегрирует видеофреймы, аудио, текст из речи и текст из кадров, включая надписи на экране. Для эффективного извлечения признаков использована Cross-Modal Attention (CMA), экспериментируя с разными конфигурациями взаимодействия модальностей. Эта модель является первой, которая использует CMA как метод для извлечения признаков в модели ненавистного говорения в видео. Кроме того, мы проводим систематическую оценку различных конфигураций ключей и запросов в CMA, чтобы определить лучшие параметры для выделения важности каждой модальности. Модель обучается на датасете HateMM, который объединяет различные виды ненавистного говорения с несколькими модальностями.
#### Результаты
Мы производили эксперименты для оценки точности, полноты и M-F1-меры. На датасете HateMM, MM-HSD показала значительное улучшение в сравнении с состоянием искусственного интеллекта (state-of-the-art), оценив M-F1-меру в 0.874. Этот результат достигнут благодаря использованию комбинации текста, аудио, видео и текста из кадров как входных данных, а также применению Cross-Modal Attention для извлечения признаков. Наилучшие результаты получены при использовании текста из кадров в качестве запроса и всех остальных модальностей в качестве ключей.
#### Значимость
Модель MM-HSD может быть применена для мониторинга содержимого в видео, включая социальные сети, трансляции в режиме реального времени, а также в правовой практике для обнаружения ненавистных высказываний. Благодаря интеграции нескольких модальностей, MM-HSD обеспечивает более точное и полное понимание контекста в видеоматериалах. Это увели
Abstract
While hate speech detection (HSD) has been extensively studied in text,
existing multi-modal approaches remain limited, particularly in videos. As
modalities are not always individually informative, simple fusion methods fail
to fully capture inter-modal dependencies. Moreover, previous work often omits
relevant modalities such as on-screen text and audio, which may contain subtle
hateful content and thus provide essential cues, both individually and in
combination with others. In this paper, we present MM-HSD, a multi-modal model
for HSD in videos that integrates video frames, audio, and text derived from
speech transcripts and from frames (i.e.~on-screen text) together with features
extracted by Cross-Modal Attention (CMA). We are the first to use CMA as an
early feature extractor for HSD in videos, to systematically compare query/key
configurations, and to evaluate the interactions between different modalities
in the CMA block. Our approach leads to improved performance when on-screen
text is used as a query and the rest of the modalities serve as a key.
Experiments on the HateMM dataset show that MM-HSD outperforms state-of-the-art
methods on M-F1 score (0.874), using concatenation of transcript, audio, video,
on-screen text, and CMA for feature extraction on raw embeddings of the
modalities. The code is available at https://github.com/idiap/mm-hsd
Ссылки и действия
Дополнительные ресурсы: