Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning

2509.06826v1 cs.CV, cs.LG 2025-09-10

Авторы:

Dipta Neogi, Nourash Azmine Chowdhury, Muhammad Rafsan Kabir, Mohammad Ashrafuzzaman Khan

Резюме на русском

## Контекст В последние годы видеоконтент стал важной частью жизни многих людей. Но с ростом количества видео, особенно на платформах потокового видео, возникают проблемы с классификацией видео по возрастным категориям (таким, как G, PG, PG-13, R). Традиционные методы требуют большого количества тщательно отмеченных данных, что делает их неэффективными и непоследовательными. Это приводит к нежелательной оценке контента и к неверным оценкам возрастной совместимости. Наша мотивация заключается в разработке метода, который может эффективно и точно классифицировать видео по возрастным категориям, обеспечивая надежную и эффективную автоматизацию. ## Метод Мы предлагаем гибридную архитектуру, которая объединяет в себе сверточные нейронные сети (CNN), рекуррентные нейронные сети (LSTM) и аттенционные механизмы. CNN используется для извлечения специальных сигналов из кадров видео, LSTM помогают моделировать последовательность различных кадров, а аттенционная меchanica акцентирует внимание на ключевых фреймах. Мы также экспериментировали с разными подходами контрастного обучения, включая Instance Discrimination, Contextual Contrastive Learning и Multi-View Contrastive Learning. Это позволило нам улучшить дискриминацию и обеспечить более точную классификацию, особенно для граничных случаев, таких как различия между PG-13 и R-рейтингами. ## Результаты Мы проверили нашу модель на стандартных данных и сравнили ее с другими методами. Наша модель показала лучший результат в фреймворке Contextual Contrastive Learning, достигнув 88% точности и 0.8815 F1-меры. Это позволило ей обнаруживать тонкие различия, такие как между PG-13 и R-рейтингами. Мы также проверили модель с разными функциями потерь контрастного обучения, чтобы продемонстрировать её высокую устойчивость и надежность. ## Значимость Наша модель может быть применена для автоматического ранжирования видео по возрастным категориям для платформ потокового видео. Она эффективно решает проблему необходимости в ручной маркировке больших объемов данных. Это также может помочь в соответствии с законами и регулированием во всем мире. Кроме того, поскольку мы развернули модель в виде веб-приложения, она может использоваться в реальном времени для автоматической классификации видео по MPAA-рейтингу. ## Выводы Мы разработали метод, который эффективно решает проблемы классификации видео по возрастным категориям, основанный на контрастном обучении и гибридной архитектуре. Наша модель решает важные проблемы с эффективностью и точностью в классификации. Мы планируем продолжить развитие этого подхода, исследу

Abstract

The rapid growth of visual content consumption across platforms necessitates automated video classification for age-suitability standards like the MPAA rating system (G, PG, PG-13, R). Traditional methods struggle with large labeled data requirements, poor generalization, and inefficient feature learning. To address these challenges, we employ contrastive learning for improved discrimination and adaptability, exploring three frameworks: Instance Discrimination, Contextual Contrastive Learning, and Multi-View Contrastive Learning. Our hybrid architecture integrates an LRCN (CNN+LSTM) backbone with a Bahdanau attention mechanism, achieving state-of-the-art performance in the Contextual Contrastive Learning framework, with 88% accuracy and an F1 score of 0.8815. By combining CNNs for spatial features, LSTMs for temporal modeling, and attention mechanisms for dynamic frame prioritization, the model excels in fine-grained borderline distinctions, such as differentiating PG-13 and R-rated content. We evaluate the model's performance across various contrastive loss functions, including NT-Xent, NT-logistic, and Margin Triplet, demonstrating the robustness of our proposed architecture. To ensure practical application, the model is deployed as a web application for real-time MPAA rating classification, offering an efficient solution for automated content compliance across streaming platforms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация