Revealing Temporal Label Noise in Multimodal Hateful Video Classification

2508.04900v1 cs.CV, cs.AI 2025-08-09
Авторы:

Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимедийный контент в сети Интернет растет с быстрым темпом, что приводит к широкому распространению ненавистной речи (hate speech). Это создает серьезные социальные и регуляторные вызовы. В последние годы было достигнуто значительное прогрессирование в области мультимодальной детекции ненавистных видео, однако большинство существующих подходов основываются на грубых, видео-уровневых аннотациях, которые игнорируют временную гранулярность ненавистного контента. Это приводит к существенному шуму в метках (label noise), так как видео, отмеченные как ненавистные, часто содержат длительные сегменты, не относящиеся к ненавистной речи. Эта проблема особенно критична, потому что ненавистная речь часто выражается в контекстно-зависимом и временно-непрерывном формате. Грубые аннотации могут вводить в заблуждение модели, препятствуя точной классификации и пониманию контекста. Исследование, посвященное временным динамикам и характеристикам ненавистного контента, необходимо для создания более надежных и интерпретируемых моделей. В этой работе авторы предлагают файн-гранулярный подход для анализа временного шума в метках. Они используют временные метки (timestamps) для того, чтобы изолировать явно ненавистные сегменты из видео, а затем проводят анализ распределения и характеристик ненавистного и не-ненавистного контента. Целью этого исследования является выявление степени семантического перекрытия и путаницы, введенной грубыми аннотациями на уровне видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, которая включает в себя точное отсечение (trimming) видео с ненавистным контентом из датасетов HateMM и MultiHateClip. Это достигается путем использования аннотированных временных меток, которые позволяют изолировать только те сегменты, которые содержат явно ненавистную речь. Затем эти отрезки анализируются с точки зрения их семантических характеристик и распределения. Этот подход позволяет выявить степень перекрытия между ненавистным и не-ненавистным контентом, а также уровень путаницы, который вводится грубыми, видео-уровневыми аннотациями. Далее, авторы проводят контролируемые эксперименты для изучения влияния временного шума на модели классификации. Они демонстрируют, что шум во временных метках фундаментально изменяет границы принятия решений моделей и снижает уверенность в классификации. Это подчеркивает важность временно-зависимых моделей и бенчмарков для улучшения точности и интерпретируемости классификации ненавистной речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух датасетах: HateMM и MultiHateClip. Они используют аннотированные временные метки для изоляции явно ненавистных сегментов видео. Затем они проводят анализ этих сегментов, выявляя распределение и характеристики как ненавистного, так и не-ненавистного контента. Результаты показывают высокий уровень семантического перекрытия между этими категориями, что подтверждает наличие значительного шума в метках. Кроме того, авторы проводят контролируемые эксперименты, в которых они анализируют влияние временного шума на процесс классификации. Они демонстрируют, что шум во временных метках приводит к существенным изменениям в границах принятия решений моделей и снижению уверенности в классификации. Эти результаты подтверждают, что ненавистная речь является контекстно-зависимой и требует временно-зависимых моделей для более точного анализа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Настоящее исследование имеет значительное практическое значение для разработки более эффективных методов детекции и классификации ненавистной речи в мультимодальных видео. Оно подчеркивает необходимость разработки моделей, которые учитывают временную гранулярность и контекстную зависимость ненавистной речи. Такие модели могут быть использованы для улучшения точности классификации, а также для повышения интерпретируемости и надежности систем детекции ненавистной речи. Кроме того, данное исследование может быть применено в областях регулирования и модернизации социальных медиа-платформ, где необходимо эффективное обнаружение и модерирование ненавистного контента. Преимуществами этого подхода являются улучшенная точность, более глубокое понимание временных динамик и потенциальное снижение ложноположительных результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Выводы данного исследования показывают, что временной шум в метках имеет фундаментальное влияние на процесс классификации ненавистного контента в мультимодальных видео. Авторы выделяют необходимость разработки более точных и временно-зависимых моделей, которые могут лучше учитывать контекст и временную непрерывность ненавистной речи. Будущие исследования могут сосредоточиться на разработке более продвинутых алгоритмов, способных обрабатывать временной шум и улучшать точность классификации. Также может быть полезно создание новых бенчмарков, которые будут учитывать временную гранулярность ненавистного контента. Это может привести к более надежным и интерпретируемым системам детекции ненавистной речи.

Abstract

The rapid proliferation of online multimedia content has intensified the spread of hate speech, presenting critical societal and regulatory challenges. While recent work has advanced multimodal hateful video detection, most approaches rely on coarse, video-level annotations that overlook the temporal granularity of hateful content. This introduces substantial label noise, as videos annotated as hateful often contain long non-hateful segments. In this paper, we investigate the impact of such label ambiguity through a fine-grained approach. Specifically, we trim hateful videos from the HateMM and MultiHateClip English datasets using annotated timestamps to isolate explicitly hateful segments. We then conduct an exploratory analysis of these trimmed segments to examine the distribution and characteristics of both hateful and non-hateful content. This analysis highlights the degree of semantic overlap and the confusion introduced by coarse, video-level annotations. Finally, controlled experiments demonstrated that time-stamp noise fundamentally alters model decision boundaries and weakens classification confidence, highlighting the inherent context dependency and temporal continuity of hate speech expression. Our findings provide new insights into the temporal dynamics of multimodal hateful videos and highlight the need for temporally aware models and benchmarks for improved robustness and interpretability. Code and data are available at https://github.com/Multimodal-Intelligence-Lab-MIL/HatefulVideoLabelNoise.

Ссылки и действия