DIVA-VQA: Detecting Inter-frame Variations in UGC Video Quality
2508.10605v1
eess.IV, cs.CV, cs.MM
2025-08-16
Авторы:
Xinyi Wang, Angeliki Katsenou, David Bull
Резюме на русском
## Контекст
Качество видео является ключевым фактором для удовлетворяемости пользователей в современных приложениях для социальных сетей и видеотрансляций. В случае пользовательских видео (UGC), существуют проблемы с доступностью пригодных для сравнения референсных видео, что приводит к потребности в моделях **no-reference (NR) perceptual video quality assessment (VQA)**. Однако, существующие модели часто неэффективны, неточны или слишком требовательны к ресурсам. Необходима модель, которая обеспечивала бы высокую точность, низкую сложность вычислений и эффективность в анализе видео.
## Метод
Предложена модель **DIVA-VQA**, основанная на разложении видео на фрагменты, учитывающие интер-фреймные изменения. Метод работает на уровнях: кадров, патчей и разложенных кадров. Он интегрирует 2D и 3D признаки, отражающие локальные и глобальные вариации. Для анализа используются **residuals**, отражающие изменения между фреймами и внутри них. Архитектура DIVA-VQA эффективно обрабатывает как статичные, так и динамические изменения качества видео, обеспечивая комплексный подход к их оценке.
## Результаты
Модель была тестирована на пяти датасетах UGC и сравнивалась с тремя современными моделями. Результаты показали, что DIVA-VQA отличается высоким **rank correlation** (DIVA-VQA-L: 0.898, DIVA-VQA-B: 0.886), что делает её одной из лучших в этой области. Она также обеспечивает низкую сложность вычислений, становясь одной из самых быстрых моделей. Эти результаты подтверждают высокую эффективность DIVA-VQA в реальных условиях, где требуется быстрая и точная оценка качества видео.
## Значимость
Предлагаемая модель имеет широкие применения в мониторинге качества видео на платформах социальных сетей и видеотрансляций. Она позволяет эффективно оценивать качество видео при отсутствии референсных фреймов, что является ключевой проблемой для широкого спектра приложений. Дополнительно, модель обладает низкой сложностью вычислений, что делает её привлекательной для реализации в реальном времени.
## Выводы
Результаты показали, что DIVA-VQA стала одной из лидеров в области NR-VQA, обеспечивая точность и эффективность, необходимые для мониторинга качества видео. Будущие исследования будут направлены на улучшение модели, включая расширение её возможностей для анализа более сложных видео структур и увеличение её универсальности в различных условиях.
Abstract
The rapid growth of user-generated (video) content (UGC) has driven increased
demand for research on no-reference (NR) perceptual video quality assessment
(VQA). NR-VQA is a key component for large-scale video quality monitoring in
social media and streaming applications where a pristine reference is not
available. This paper proposes a novel NR-VQA model based on spatio-temporal
fragmentation driven by inter-frame variations. By leveraging these inter-frame
differences, the model progressively analyses quality-sensitive regions at
multiple levels: frames, patches, and fragmented frames. It integrates frames,
fragmented residuals, and fragmented frames aligned with residuals to
effectively capture global and local information. The model extracts both 2D
and 3D features in order to characterize these spatio-temporal variations.
Experiments conducted on five UGC datasets and against state-of-the-art models
ranked our proposed method among the top 2 in terms of average rank correlation
(DIVA-VQA-L: 0.898 and DIVA-VQA-B: 0.886). The improved performance is offered
at a low runtime complexity, with DIVA-VQA-B ranked top and DIVA-VQA-L third on
average compared to the fastest existing NR-VQA method. Code and models are
publicly available at: https://github.com/xinyiW915/DIVA-VQA.
Ссылки и действия
Дополнительные ресурсы: