📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra
Обработка видеоконтента в сети становится все более вызовом, и традиционные методы модерации не могут справиться с таким объемом. Это статья оценивает возможности multimodal large language models (MLLMs) в области multimodal content moderation, особенно для задачи brand safety classification, которая требует точного понимания как текстовых, так и визуальных сигналов. Авторы представляют новый multimodal и multilingual dataset, отмеченный профессиональными модераторами, и проводят сравнительный анализ того, насколько эффективны MLLMs (Gemini, GPT, Llama) по отношению к профессиональным модераторам. Они показывают, что MLLMs демонстрируют высокую точность и экономию затрат, но также раскрывают ограничения и сценарии их неудач. Данная работа сделана с целью поддержки исследований в области safe content moderation и предоставила данные для будущих исследований.
Annotation:
As the volume of video content online grows exponentially, the demand for
moderation of unsafe videos has surpassed human capabilities, posing both
operational and mental health challenges. While recent studies demonstrated the
merits of Multimodal Large Language Models (MLLMs) in various video
understanding tasks, their application to multimodal content moderation, a
domain that requires nuanced understanding of both visual and textual cues,
remains relatively underexplored. In this work, we be...