AI vs. Human Moderators: A Comparative Evaluation of Multimodal LLMs in Content Moderation for Brand Safety
2508.05527v1
cs.CV, I.2.10; I.2.7; H.3.3; H.4.3; K.4.1
2025-08-09
Авторы:
Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra
Резюме на русском
Обработка видеоконтента в сети становится все более вызовом, и традиционные методы модерации не могут справиться с таким объемом. Это статья оценивает возможности multimodal large language models (MLLMs) в области multimodal content moderation, особенно для задачи brand safety classification, которая требует точного понимания как текстовых, так и визуальных сигналов. Авторы представляют новый multimodal и multilingual dataset, отмеченный профессиональными модераторами, и проводят сравнительный анализ того, насколько эффективны MLLMs (Gemini, GPT, Llama) по отношению к профессиональным модераторам. Они показывают, что MLLMs демонстрируют высокую точность и экономию затрат, но также раскрывают ограничения и сценарии их неудач. Данная работа сделана с целью поддержки исследований в области safe content moderation и предоставила данные для будущих исследований.
Abstract
As the volume of video content online grows exponentially, the demand for
moderation of unsafe videos has surpassed human capabilities, posing both
operational and mental health challenges. While recent studies demonstrated the
merits of Multimodal Large Language Models (MLLMs) in various video
understanding tasks, their application to multimodal content moderation, a
domain that requires nuanced understanding of both visual and textual cues,
remains relatively underexplored. In this work, we benchmark the capabilities
of MLLMs in brand safety classification, a critical subset of content
moderation for safe-guarding advertising integrity. To this end, we introduce a
novel, multimodal and multilingual dataset, meticulously labeled by
professional reviewers in a multitude of risk categories. Through a detailed
comparative analysis, we demonstrate the effectiveness of MLLMs such as Gemini,
GPT, and Llama in multimodal brand safety, and evaluate their accuracy and cost
efficiency compared to professional human reviewers. Furthermore, we present an
in-depth discussion shedding light on limitations of MLLMs and failure cases.
We are releasing our dataset alongside this paper to facilitate future research
on effective and responsible brand safety and content moderation.