📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 ViG-LRGC: Vision Graph Neural Networks with Learnable Reparameterized Graph Construction
2025-09-25Авторы:
Ismael Elsharkawi, Hossam Sharara, Ahmed Rafea
## Контекст
Изображение — один из основных объектов исследований в области компьютерного зрения. Обработка изображений традиционно производилась с использованием сверточных нейронных сетей (CNN), либо с помощью виджет-трансформеров (Vision Transformers), которые обрабатывают изображения как последовательность визуальных токенов. Новые подходы, такие как Vision Graph Neural Networks (ViG), предлагают новую точку зрения, рассматривая изображение как граф, где узлы представляют визуальные элементы, а ребра — их взаимосвязи. Это подходящая модель для задач, требующих интуитивного представления взаимосвязей. Однако существует проблема с выбором лучшей структуры графа: существующие методы требуют гиперпараметров или операций статистического выбора, которые могут привести к неэффективным или неоптимальным результатам.
## Метод
Для устранения этих проблем предлагается Learnable Reparameterized Graph Construction (LRGC). Метод основывается на ключ-запрос-аттенции (key-query attention) между узлами, что позволяет оценивать взаимосвязи в графе. Далее, используется метод мягкого порога (soft-threshold reparameterization) для выбора ребер, который позволяет применять дифференцируемую математическую модель для обучения. Этот подход удаляет необходимость в гиперпараметрах, так как пороговые значения либо оптимизируются в процессе обучения, либо устанавливаются в зависимости от данных. Таким образом, LRGC обеспечивает более точное и гибко настраиваемое представление графа, избавляя модель от зависимости от предварительно заданных гиперпараметров.
## Результаты
Для исследования Выделены эксперименты на ImageNet-1k — широко используемой базе данных для задач классификации изображений. Модель ViG-LRGC была сравнена с современными моделями виджет-графов. Она показала лучший результат, обеспечивая более точное представление изображений и превосходя существующие модели схожих размеров. Эта производительность указывает на эффективность предложенного метода в создании более точных и оптимальных графов для обработки изображений.
## Значимость
LRGC может быть применено в различных областях компьютерного зрения, включая классификацию изображений, обнаружение объектов и сегментацию. Его главные преимущества заключаются в удалении необходимости в гиперпараметрах, увеличение точности и устойчивости модели. Данный подход позволяет значительно улучшить результаты в задачах обработки изображений, при этом сохраняя модель простую в использовании и эффективную.
## Выводы
Результаты исследования показывают, что LRGC является эффективным методом для создания графов в моделях ViG. Он у
Annotation:
Image Representation Learning is an important problem in Computer Vision.
Traditionally, images were processed as grids, using Convolutional Neural
Networks or as a sequence of visual tokens, using Vision Transformers.
Recently, Vision Graph Neural Networks (ViG) have proposed the treatment of
images as a graph of nodes; which provides a more intuitive image
representation. The challenge is to construct a graph of nodes in each layer
that best represents the relations between nodes and does not ...
Авторы:
Nisarg A. Shah, Amir Ziai, Chaitanya Ekanadham, Vishal M. Patel
## Контекст
Область исследования затрагивает развитие моделей визуального понимания и их применение в контекстной работе с видео. Несмотря на успехи в области визуально-языковых моделей, оценка их умения решать задачи, требующие глубокого контекстного понимания, остается затруднительной. Существующие бенчмарки часто ограничиваются краткими клипами или вопросами шаблонного характера, не подходящими для оценки работы моделей в более технически сложных сценариях, таких как работа с длительным хронологическим контентом. Рассматриваемая работа стремится заполнить этот пробел, предлагая Cinéaste — бенчмарк, ориентированный на глубокое контекстное обоснование для длительных видео.
## Метод
Cinéaste использует 3,119 множественно-выборочных вопросов-ответов, построенных на 1,805 сценах из 200 разных фильмов. Для генерации вопросов используется GPT-4o, который интегрирует визуальные описания, капшны, названия сцен и сводки фильмов. Для фильтрации вопросов введены два этапа: Context-Independence Filtering, гарантирующий, что вопросы требуют контекста видео, и Contextual Veracity Filtering, проверяющий корректность ответов в свете конкретного контента фильма. Это позволяет создавать более глубокие и сложные вопросы, принуждая модели визуального понимания построить логические выводы, базируясь на длительном контексте.
## Результаты
На платформе Cinéaste, обученные модели столкнулись с сильными ограничениями в достижении высокой точности. Открытые модели, к примеру, демонстрируют только 63.15% точности, что говорит о сложности задачи. Эксперименты показали, что сложность заключается в том, что модели столкнулись с трудностями в логическом рассуждении по длительному видеоконтенту. Это отражает потребность в развитии моделей, способных выполнять глубокое контекстное разумение в терминах длительных видео.
## Значимость
Cinéaste представляет собой значительный вклад в область контекстного понимания видео. Его применение может быть распространено в задачах, требующих высокого уровня контекстного взаимодействия, таких как анализ контента видео, создание новых тестовых средств и дальнейшее развитие моделей для работы с длительными видео. Работа позволяет увидеть значительный потенциал в развитии новых подходов, которые могут продвинуть границы технического понимания видеоконтента.
## Выводы
Результаты экспериментов подтвердили сложность задачи контекстного понимания в длительных видео. Ограничения моделей в логическом рассуждении становятся основным барьером для достижения высокой точности. Будущие исследования будут сосредоточены на разви
Annotation:
While recent advancements in vision-language models have improved video
understanding, diagnosing their capacity for deep, narrative comprehension
remains a challenge. Existing benchmarks often test short-clip recognition or
use template-based questions, leaving a critical gap in evaluating fine-grained
reasoning over long-form narrative content. To address these gaps, we introduce
$\mathsf{Cin\acute{e}aste}$, a comprehensive benchmark for long-form movie
understanding. Our dataset comprises 3,1...
📄 Vi-SAFE: A Spatial-Temporal Framework for Efficient Violence Detection in Public Surveillance
2025-09-18Авторы:
Ligang Chang, Shengkai Xu, Liangchang Shen, Binhan Xu, Junqiao Wang, Tianyu Shi, Yanhui Du
#### Контекст
Выявление насилия в публичных системах видеонаблюдения является ключевым вопросом для обеспечения общественной безопасности. Существующие системы часто сталкиваются с проблемами, такими как малоразмерные объекты, подвижные кадры, сложные фоновые элементы и необходимость высокоскоростной обработки в реальном времени. Эти ограничения становятся причиной неточности детектирования и задержки в реагировании на опасные ситуации. Таким образом, необходимо разработать более эффективный подход, который объединит локализацию объектов и анализ временных последовательностей на уровне крупных данных.
#### Метод
Предлагаемая модель Vi-SAFE (Violence Spatial-Temporal Framework for Efficient Violence Detection) является интегрированной системой, которая сочетает мощь модели YOLOv8 для локализации объектов с Temporal Segment Network (TSN) для анализа временных сегментов. Модель YOLOv8 использует GhostNetV3 в качестве легковесного бэкбона, свёрточный модуль с экспоненциальным движением среднего (EMA) и методы уменьшения комплексности (пруйнг). TSN, в свою очередь, выполняет бинарное классификационное разделение наводчиков навраждений. Обе модели обучаются отдельно на специальных наборах данных, что позволяет гармонично объединить локализацию и классификацию. Эта стратегия обеспечивает высокую точность и эффективность.
#### Результаты
Выполненные эксперименты показали, что Vi-SAFE демонстрирует заметное превосходство над существующими методами. На RWF-2000 датасете она достигла точности 0.88, что значительно превышает результаты TSN (0.77) и других конкурентных решений. Это свидетельствует о высокой эффективности Vi-SAFE в выявлении насилия и позволяет сделать вывод о том, что она является ключевым инструментом для обеспечения общественной безопасности.
#### Значимость
Предлагаемая модель может быть применена в различных сферах, например, в системах безопасности, мониторинге общественных мест и системах охраны. Она обеспечивает более точное и быстрое выявление насилия, что позволяет улучшить ответы на негативные события. Таким образом, Vi-SAFE не только оптимизирует текущие процессы, но и открывает новые возможности для развития общественных систем безопасности.
#### Выводы
Результаты исследований показали, что Vi-SAFE является эффективным инструментом для выявления насилия в публичных системах видеонаблюдения. В будущем исследования планируют сосредоточиться на улучшении моделей для выявления более сложных форм насилия, а также на увеличении скорости и эффективности обработки в реальном времени. Эти улучшения будут способствовать улучшению безопасности в общественных местах.
Annotation:
Violence detection in public surveillance is critical for public safety. This
study addresses challenges such as small-scale targets, complex environments,
and real-time temporal analysis. We propose Vi-SAFE, a spatial-temporal
framework that integrates an enhanced YOLOv8 with a Temporal Segment Network
(TSN) for video surveillance. The YOLOv8 model is optimized with GhostNetV3 as
a lightweight backbone, an exponential moving average (EMA) attention
mechanism, and pruning to reduce computational...
Авторы:
Lianjun Liao, Chunhui Zhang, Tong Wu, Henglei Lv, Bailin Deng, Lin Gao
#### Контекст
Изображения, сфотографированные на открытом воздухе, часто охватывают бесконечные сцены с непоследовательными, меняющимися условиями освещения. Это препятствует разделению этих сцен на геометрию, отражение и освещение. Недавние работы, основанные на Neural Radiance Fields (NeRF) или 3D Gaussian Splatting (3DGS), сталкиваются с проблемами высокого вычислительного накладываемого веса и низкочастотной моделью освещения, что приводит к неэффективному рендерингу и неточности в обратном освещении. Наша мотивация заключается в создании более эффективной и точной модели для построения и освещения внешних сцен.
#### Метод
Предлагаемая ROSGS-модель состоит из двух этапов. На первом этапе используется 2D Gaussian Splatting (2DGS) для определения геометрии сцены с помощью монокулярных нормальных привязок. Этот шаг обеспечивает эффективную и точную модель геометрии. На втором этапе, основываясь на полученной геометрии, мы применяем гибридную модель освещения. Для дирекционного солнечного освещения используется сферическая Гауссова функция, а для остальной низкочастотной части света — сферические Коэффициенты Шаря (Spherical Harmonics). Эта модель позволяет получить более точное и эффективное представление освещения.
#### Результаты
Мы провели эксперименты на стандартных датасетах для сравнения с другими моделями. Результаты показали, что ROSGS превосходит конкуренты в задаче обратного освещения, предоставляя точные результаты и эффективную обработку. Мы также провели сравнение с NeRF и 3DGS на реальных сценах, подтвердив, что наша модель предоставляет более высокое качество рендеринга и эффективность.
#### Значимость
Модель ROSGS может применяться в различных областях, включая виртуальную реальность, игры, а также в задачи анимации и моделирования внешних сцен. Основные преимущества заключаются в высокой точности в обратном освещении, эффективности рендеринга и широком применении в реальных задачах. Мы видим потенциал для её использования в сфере виртуальных интерфейсов, симуляции внешних пространств и даже в графике компьютерных игр.
#### Выводы
Предложенная модель ROSGS достигла нового уровня качества в обратном освещении внешних сцен, превосходя конкурентов по точности и эффективности. Мы также отметили необходимость будущих исследований в области улучшения гибридных моделей освещения и их применения в реальных сценах с более сложными условиями.
Annotation:
Image data captured outdoors often exhibit unbounded scenes and
unconstrained, varying lighting conditions, making it challenging to decompose
them into geometry, reflectance, and illumination. Recent works have focused on
achieving this decomposition using Neural Radiance Fields (NeRF) or the 3D
Gaussian Splatting (3DGS) representation but remain hindered by two key
limitations: the high computational overhead associated with neural networks of
NeRF and the use of low-frequency lighting represe...
Авторы:
Zilin Li, Weiwei Xu, Xuanqi Zhao, Yiran Zhu
#### Контекст
Узнавание эмоций на основе лица (FER) является важной задачей в области обработки имиджей и обнаружения эмоций. Несмотря на успех моделей, которые обучаются на пикселях, они часто сталкиваются с проблемой неполного обобщения на новых данных. Это связано с тем, что лицевая природа не является прямым и несмещенным прокси-индикатором внутренних эмоциональных состояний. Без собственных внутренних представлений о чувствах модели остаются ограниченными в своей точности и универсальности. Другая мотивация заключается в использовании нейроинформационных признаков, которые могут уточнять визуальные модели, но часто требуют сложных парности данных и ресурсоемких вычислений. Цель настоящей работы — развить простую, эффективную и универсальную методологию, которая может быть развернута в реальном мире.
#### Метод
Мы предлагаем NeuroGaze-Distill, кросс-модальный фреймворк обучения с подделкой, который передает биоинформационные признаки из модели-учителя в модель-ученика, основываясь на статических признаках valence/arousal (V/A) и депрессионным инспирированном геометрическом признаке (D-Geo). Учитель, обученный на EEG-топографических картах от DREAMER (с MAHNOB-HCI в качестве неотмеченных данных), производит статическую сетку V/A 5x5, которая замораживается и используется на протяжении всего учебного процесса. Нет необходимости в парности лиц-EEG или невизуальных сигналах во время работы. Ученик, реализованный как ResNet-18/50, обучается на FERPlus с использованием классических кросс-энтропийных и классических классификационных регуляризаторов: (i) **Proto-KD (cosine)**, который выравнивает внутренние признаки ученика с головоломными V/A-признаками; и (ii) **D-Geo**, который мягко изменяет геометрию признаков, опираясь на наблюдения из исследований депрессии, например, сокращении вокруг высокоудовольствия. Мы проводим эксперименты внутри домена (FERPlus) и междоменного (AffectNet-mini, CK+), измеряя 8-и классовые оценки, а также метрики F1 и балансируемую точность для сравнения с неодинаковыми метками.
#### Результаты
Испытания показали, что NeuroGaze-Distill показывает стабильные улучшения в точности и F1-метрике по сравнению с базовой моделью. Абляционные эксперименты подтвердили вклад статических признаков V/A и D-Geo в улучшение производительности. Мы проанализировали размер статической сетки V/A и обнаружили, что 5x5 дает лучший баланс между стабильностью и производительностью. Наши результаты показали, что NeuroGaze-Distill может быть эффективно применен для улучшения универсальности FER-моделей без дополнительных архитектурных сложностей.
Annotation:
Facial emotion recognition (FER) models trained only on pixels often fail to
generalize across datasets because facial appearance is an indirect and biased
proxy for underlying affect. We present NeuroGaze-Distill, a cross-modal
distillation framework that transfers brain-informed priors into an image-only
FER student via static Valence/Arousal (V/A) prototypes and a
depression-inspired geometric prior (D-Geo). A teacher trained on EEG
topographic maps from DREAMER (with MAHNOB-HCI as unlabeled ...
Авторы:
Taeyoung Yeon, Vasco Xu, Henry Hoffmann, Karan Ahuja
## Контекст
Современные смарт-устройства, такие как смарт-часы, становятся важной платформой для мониторинга активности человека. Однако существуют значительные проблемы, связанные с задержками реакции, ограниченной точностью и рисками, связанными с передачей чувствительных данных на внешние серверы. Эти проблемы были причиной появления интереса к разработке моделей Human Activity Recognition (HAR), которые могут быть полностью развернуты на устройствах без подключения к интернету. Такие модели обеспечивают более быстрый ответ, повышают защиту приватности и улучшают доступность данных для реального времени. Одна из главных проблем заключается в том, что существующие решения либо не являются полностью устройствно-независимыми, либо имеют высокую задержку, что препятствует их использованию в реальном времени.
## Метод
WatchHAR представляет собой инновационную систему HAR, которая использует аудио- и инерционные данные для реализации распознавания активностей на устройствах. Архитектура WatchHAR скрытосвязная и включает в себя несколько слоев, каждый из которых отвечает за преобразование и анализ данных. Алгоритмы предварительной обработки данных и распознавания активностей объединены в единую систему, которая тренируется как единое целое. Эта модель включает в себя эффективные методы для оптимизации расчетов, которые позволяют сделать процесс распознавания более быстрым и точным. Ключевым элементом системы является использование глубоких нейросетевых моделей, которые позволяют системе обучаться на большом объеме данных и улучшать качество распознавания с каждым новым запуском.
## Результаты
В ходе экспериментов с использованием WatchHAR был проведен набор тестов на многочисленных классах активностей. Модель была протестирована на данных, собранных с различных смарт-часов, и показала впечатляющие результаты, достигнув точности более 90% при распознавании более 25 классов активностей. Благодаря использованию многомодальной архитектуры, WatchHAR достигла значительного сокращения времени обработки. Например, для обнаружения событий активности модель требует всего 9,3 мс, а для мультимодального классификации активности — 11,8 мс. Эти результаты показывают, что WatchHAR не только ускоряет распознавание, но и сохраняет высокую точность, даже при работе в неполной модели.
## Значимость
WatchHAR открывает новые возможности для мобильных устройств, в частности смарт-часов, позволяя им работать как самостоятельные системы мониторинга активности. Это решение улучшает защиту приватности, так как данные остаются на устройстве, а не отправляю
Annotation:
Despite advances in practical and multimodal fine-grained Human Activity
Recognition (HAR), a system that runs entirely on smartwatches in unconstrained
environments remains elusive. We present WatchHAR, an audio and inertial-based
HAR system that operates fully on smartwatches, addressing privacy and latency
issues associated with external data processing. By optimizing each component
of the pipeline, WatchHAR achieves compounding performance gains. We introduce
a novel architecture that unifie...
Авторы:
Bikash Kumar Badatya, Vipul Baghel, Ravi Hegde
## Контекст
Детектирование тонкости действий в неотрезанных видеороликах спортивного содержания представляет собой значительную сложность из-за быстрого и незначительного движения, происходящего в течение короткого промежутка времени. Традиционные методы, основанные на наблюдениях или слабо наблюдательных подходах, часто требуют больших количеств аннотированных данных и высокотехнологичных моделей, что приводит к высоким требованиям по вычислительной мощности и ограничивает применение в реальных условиях. В настоящей работе предлагается новый способ обнаружения тонкости действий в видео, основанный на последовательности костей, который позволяет извлекать динамику движения без необходимости использования меток. Этот подход может применяться в реальном времени, обеспечивая эффективность и точность для систем анализа действий в узком видео.
## Метод
Метод, представленный в статье, основывается на использовании скелетон-таблицы с использованием представлений графа в пространстве времени и пространстве. Для конструирования графа в пространстве времени используется необработанный скелетный набор данных действий, который представляет собой последовательность костей в кадре. Для извлечения динамики движения не используется метка, но используется специальный алгоритм под названием ASTGCN (Attention-based Spatio-Temporal Graph Convolutional Network). Этот метод обучается на задаче подавления шума в последовательности костей, что позволяет извлекать детальную информацию о движении. Для определения точки действия во времени используется адаптивная методика, основанная на кривизне кривой, которая позволяет определять моменты начала и окончания действия с высокой точностью.
## Результаты
Проведены эксперименты на популярных датасетах, таких как DSV Diving. Метод обнаружения действий показал высокую точность, достигнув максимального mean Average Precision (mAP) в 82.66% на DSV Diving. Также была измерена скорость выполнения, которая составила 29.09 мс для одного кадра. Это демонстрирует эффективность метода в реальном времени. Метод был протестирован на неизвестных данных, не имеющих обозначенных действий, и показал высокую общую точность, что демонстрирует модельную прочность и пригодность к использованию в реальных условиях.
## Значимость
Предлагаемый подход может быть применен в различных областях, таких как спортивный анализ, видеореконструкция и робототехника. Он обеспечивает высокую точность и быструю оценку действий в реальном времени, что может быть полезно для анализа действий в сложных средах. Кроме того, он позволяет избегать проблем, связанных с набором данных и методами, которые часто требуют многочисленных требований к ресурсам. Это модель очен
Annotation:
Fine-grained action localization in untrimmed sports videos presents a
significant challenge due to rapid and subtle motion transitions over short
durations. Existing supervised and weakly supervised solutions often rely on
extensive annotated datasets and high-capacity models, making them
computationally intensive and less adaptable to real-world scenarios. In this
work, we introduce a lightweight and unsupervised skeleton-based action
localization pipeline that leverages spatio-temporal graph ...
📄 MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance
2025-08-16Авторы:
Yi Dong, Yusuke Muraoka, Scott Shi, Yi Zhang
## Контекст
Многомодальные данные, включающие многочисленные изображения и текстовые метки, являются ключевым ресурсом для развития искусственного интеллекта. Однако их уникальность и качество часто трудно проверить. У MP-Food-100K нет подобных проблем, так как этот мощный 100 000-выборочный датасет, состоящий из многомодальных данных об еде, поставляется с полностью проверяемой происхожденностью. Он является открытым 10% отрицательным тестовым подходом к 1,2 миллиону семантически обработанных изображений, отфильтрованных с учетом качества, собранных за шесть недель с участием более 87 000 участников. Эта работа была выполнена с помощью собственной модели Codatta для совмещения сообщественных усилий с технологиями AI-управленных проверок качества. Каждая подача связана с адресом электронного кошелька для трассируемости, а в будущем планируется перейти на полностью децентрализованный протокол на блокчейне. Многомодальность и проверка качества данных делают датасет уникальным и полезным для развития технологий обработки многомодальных данных.
## Метод
MM-Food-100K был создан с использованием мощной контрибуционной модели Codatta, которая объединяет сообщественные усилия с AI-управляемыми проверками качества. Изображения были обработаны и аннотированы на различные атрибуты, такие как название блюда, регион его создания. Такой подход обеспечивает проверяемую происхожденность каждого образца датасета. Для подтверждения качества данных и их полезности для многомодальных задач был проведен эксперимент на тонкой настройке крупных зрения-языковых моделей (ChatGPT 5, ChatGPT OSS, Qwen-Max) на задачу прогнозирования питательных значений блюд на изображениях. Это подтвердило преимущества многомодальной модели и ее высокую полезность для решения задач обработки изображений. Данный подход стал ключевым для успеха датасета в тестировании и применении.
## Результаты
В результате эксперимента, проведенного на основе MM-Food-100K, были получены улучшения в прогнозировании питательных значений блюд в сравнении с базовыми моделями. Использование тонкой настройки крупных зрения-языковых моделей позволило достичь консистентных повышений в основных метриках. На исходном датасете (1,2 миллиона изображений) было выделено 100 000 выборок, которые были открыто распространены в многомодальных задачах. В то же время остальные 90% данных остаются доступны для коммерческого применения с поддержкой модели доли децентрализованного дохода. Это делает MM-Food-100K как полезным для научных исследований, так и для практических приложений.
## Значимость
Многомодальность и проверка качества данных делают датасет широко применимым
Annotation:
We present MM-Food-100K, a public 100,000-sample multimodal food intelligence
dataset with verifiable provenance. It is a curated approximately 10% open
subset of an original 1.2 million, quality-accepted corpus of food images
annotated for a wide range of information (such as dish name, region of
creation). The corpus was collected over six weeks from over 87,000
contributors using the Codatta contribution model, which combines community
sourcing with configurable AI-assisted quality checks; ea...
📄 Textual and Visual Guided Task Adaptation for Source-Free Cross-Domain Few-Shot Segmentation
2025-08-09Авторы:
Jianming Liu, Wenlong Qiu, Haitao Wei
Резюме: Научная статья рассматривает проблему деградации качества сегментации в задачах Few-Shot Segmentation (FSS) при существенных различиях между доменами тренировки и развертывания. Для решения этой проблемы предложена методика Source-Free Cross-Domain Few-Shot Segmentation (CD-FSS), которая использует оба типа объектных признаков — текстовые и визуальные — для эффективной адаптации модели к новому домену без доступа к данным исходного домена. В ходе работы разработаны Task-Specific Attention Adapters (TSAA), которые применяются для адаптации выводимых бэкбона фичи к новой задаче. Для уточнения адаптированных признаков используются Visual-Visual Embedding Alignment (VVEA) для выравнивания визуальных признаков и Text-Visual Embedding Alignment (TVEA) для использования текстовых признаков. Объединение этих модулей позволяет повысить точность сегментации на 2.18% при 1-shot и на 4.11% при 5-shot на 4 кросс-доменных датасетах, значительно превосходя конкурентные методы. Исходный код доступен по ссылке.
Annotation:
Few-Shot Segmentation(FSS) aims to efficient segmentation of new objects with
few labeled samples. However, its performance significantly degrades when
domain discrepancies exist between training and deployment. Cross-Domain
Few-Shot Segmentation(CD-FSS) is proposed to mitigate such performance
degradation. Current CD-FSS methods primarily sought to develop segmentation
models on a source domain capable of cross-domain generalization. However,
driven by escalating concerns over data privacy and ...
Авторы:
Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra
Обработка видеоконтента в сети становится все более вызовом, и традиционные методы модерации не могут справиться с таким объемом. Это статья оценивает возможности multimodal large language models (MLLMs) в области multimodal content moderation, особенно для задачи brand safety classification, которая требует точного понимания как текстовых, так и визуальных сигналов. Авторы представляют новый multimodal и multilingual dataset, отмеченный профессиональными модераторами, и проводят сравнительный анализ того, насколько эффективны MLLMs (Gemini, GPT, Llama) по отношению к профессиональным модераторам. Они показывают, что MLLMs демонстрируют высокую точность и экономию затрат, но также раскрывают ограничения и сценарии их неудач. Данная работа сделана с целью поддержки исследований в области safe content moderation и предоставила данные для будущих исследований.
Annotation:
As the volume of video content online grows exponentially, the demand for
moderation of unsafe videos has surpassed human capabilities, posing both
operational and mental health challenges. While recent studies demonstrated the
merits of Multimodal Large Language Models (MLLMs) in various video
understanding tasks, their application to multimodal content moderation, a
domain that requires nuanced understanding of both visual and textual cues,
remains relatively underexplored. In this work, we be...
Показано 11 -
20
из 20 записей