📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra

Обработка видеоконтента в сети становится все более вызовом, и традиционные методы модерации не могут справиться с таким объемом. Это статья оценивает возможности multimodal large language models (MLLMs) в области multimodal content moderation, особенно для задачи brand safety classification, которая требует точного понимания как текстовых, так и визуальных сигналов. Авторы представляют новый multimodal и multilingual dataset, отмеченный профессиональными модераторами, и проводят сравнительный анализ того, насколько эффективны MLLMs (Gemini, GPT, Llama) по отношению к профессиональным модераторам. Они показывают, что MLLMs демонстрируют высокую точность и экономию затрат, но также раскрывают ограничения и сценарии их неудач. Данная работа сделана с целью поддержки исследований в области safe content moderation и предоставила данные для будущих исследований.
Annotation:
As the volume of video content online grows exponentially, the demand for moderation of unsafe videos has surpassed human capabilities, posing both operational and mental health challenges. While recent studies demonstrated the merits of Multimodal Large Language Models (MLLMs) in various video understanding tasks, their application to multimodal content moderation, a domain that requires nuanced understanding of both visual and textual cues, remains relatively underexplored. In this work, we be...
ID: 2508.05527v1 cs.CV, I.2.10; I.2.7; H.3.3; H.4.3; K.4.1