📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Nisarg A. Shah, Amir Ziai, Chaitanya Ekanadham, Vishal M. Patel
## Контекст
Область исследования затрагивает развитие моделей визуального понимания и их применение в контекстной работе с видео. Несмотря на успехи в области визуально-языковых моделей, оценка их умения решать задачи, требующие глубокого контекстного понимания, остается затруднительной. Существующие бенчмарки часто ограничиваются краткими клипами или вопросами шаблонного характера, не подходящими для оценки работы моделей в более технически сложных сценариях, таких как работа с длительным хронологическим контентом. Рассматриваемая работа стремится заполнить этот пробел, предлагая Cinéaste — бенчмарк, ориентированный на глубокое контекстное обоснование для длительных видео.
## Метод
Cinéaste использует 3,119 множественно-выборочных вопросов-ответов, построенных на 1,805 сценах из 200 разных фильмов. Для генерации вопросов используется GPT-4o, который интегрирует визуальные описания, капшны, названия сцен и сводки фильмов. Для фильтрации вопросов введены два этапа: Context-Independence Filtering, гарантирующий, что вопросы требуют контекста видео, и Contextual Veracity Filtering, проверяющий корректность ответов в свете конкретного контента фильма. Это позволяет создавать более глубокие и сложные вопросы, принуждая модели визуального понимания построить логические выводы, базируясь на длительном контексте.
## Результаты
На платформе Cinéaste, обученные модели столкнулись с сильными ограничениями в достижении высокой точности. Открытые модели, к примеру, демонстрируют только 63.15% точности, что говорит о сложности задачи. Эксперименты показали, что сложность заключается в том, что модели столкнулись с трудностями в логическом рассуждении по длительному видеоконтенту. Это отражает потребность в развитии моделей, способных выполнять глубокое контекстное разумение в терминах длительных видео.
## Значимость
Cinéaste представляет собой значительный вклад в область контекстного понимания видео. Его применение может быть распространено в задачах, требующих высокого уровня контекстного взаимодействия, таких как анализ контента видео, создание новых тестовых средств и дальнейшее развитие моделей для работы с длительными видео. Работа позволяет увидеть значительный потенциал в развитии новых подходов, которые могут продвинуть границы технического понимания видеоконтента.
## Выводы
Результаты экспериментов подтвердили сложность задачи контекстного понимания в длительных видео. Ограничения моделей в логическом рассуждении становятся основным барьером для достижения высокой точности. Будущие исследования будут сосредоточены на разви
Annotation:
While recent advancements in vision-language models have improved video
understanding, diagnosing their capacity for deep, narrative comprehension
remains a challenge. Existing benchmarks often test short-clip recognition or
use template-based questions, leaving a critical gap in evaluating fine-grained
reasoning over long-form narrative content. To address these gaps, we introduce
$\mathsf{Cin\acute{e}aste}$, a comprehensive benchmark for long-form movie
understanding. Our dataset comprises 3,1...
Авторы:
Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra
Обработка видеоконтента в сети становится все более вызовом, и традиционные методы модерации не могут справиться с таким объемом. Это статья оценивает возможности multimodal large language models (MLLMs) в области multimodal content moderation, особенно для задачи brand safety classification, которая требует точного понимания как текстовых, так и визуальных сигналов. Авторы представляют новый multimodal и multilingual dataset, отмеченный профессиональными модераторами, и проводят сравнительный анализ того, насколько эффективны MLLMs (Gemini, GPT, Llama) по отношению к профессиональным модераторам. Они показывают, что MLLMs демонстрируют высокую точность и экономию затрат, но также раскрывают ограничения и сценарии их неудач. Данная работа сделана с целью поддержки исследований в области safe content moderation и предоставила данные для будущих исследований.
Annotation:
As the volume of video content online grows exponentially, the demand for
moderation of unsafe videos has surpassed human capabilities, posing both
operational and mental health challenges. While recent studies demonstrated the
merits of Multimodal Large Language Models (MLLMs) in various video
understanding tasks, their application to multimodal content moderation, a
domain that requires nuanced understanding of both visual and textual cues,
remains relatively underexplored. In this work, we be...