DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework

2508.07682v1 eess.IV, cs.CV 2025-08-13
Авторы:

Wenzhuo Ma, Zhenzhong Chen

Резюме на русском

## Контекст В современной информационной среде, где видеоконтент является одним из основных типов данных, возникает необходимость эффективных методов видеокодирования, которые обеспечивают низкие битрейты, высокое качество изображения и эффективность вычислительных ресурсов. Несмотря на прогресс в стандартах кодирования (H.264, H.265) и новые подходы, такие как сжатие на основе подбора фреймов (VVC), некоторые ограничения остаются. Например, в стандарте VVC реализованы многошаговые графы фильтров, которые улучшают качество, но приводят к высоким требованиям к вычислительной мощности. Это ограничивает их применение в реальном времени и мобильных приложениях. Большинство существующих методов сжатия видео, включая глубокие нейросетевые модели, полагаются на многошаговые процессы сжатия и сжатия восстановленного видео, что увеличивает сложность и затраты ресурсов. Из этой мотивации возникает необходимость развития простых, эффективных и высокопроизводительных алгоритмов для видеокодирования. ## Метод Мы предлагаем DiffVC-OSD, новый единошаговый диффузионный фреймворк для перцептивного сжатия видео. Напротив многошаговых диффузионных подходов, DiffVC-OSD использует одношаговый диффузионный модель, что позволяет лучше использовать контекст времени и собственные свойства лиатентного представления. В центре DiffVC-OSD лежит Temporal Context Adapter, который кодирует входные данные в виде нескольких уровней признаков, чтобы предоставить более тонкую информацию для Denoising Unet. Это позволяет модели лучше учитывать контекст в процессе сжатия. Кроме того, мы внедряем End-to-End Finetuning, чтобы улучшить общую эффективность сжатия. Эти технические решения объединяются в архитектуру, которая упрощает процесс, уменьшает затраты ресурсов и повышает качество видео. ## Результаты Мы провели ряд экспериментов, используя различные данные видео, чтобы оценить производительность DiffVC-OSD. Ключевые показатели, такие как PSNR, SSIM и LPIPS, были вычислены для сравнения с другими стандартными алгоритмами кодирования. Результаты показали, что DiffVC-OSD достигает значительного улучшения показателей качества изображения, особенно в перцептивном плане. Он также достиг до 20-кратного увеличения скорости декодирования в сравнении с многошаговыми диффузионными моделями. Битрейт был снижен на 86.92% по сравнению с ними. Эти результаты демонстрируют преимущества DiffVC-OSD в режимах с низким битрейтом и высокой производительностью. ## Значимость Предлагаемый подход имеет широкие применения в различных сферах, включая мобильные приложения

Abstract

In this work, we first propose DiffVC-OSD, a One-Step Diffusion-based Perceptual Neural Video Compression framework. Unlike conventional multi-step diffusion-based methods, DiffVC-OSD feeds the reconstructed latent representation directly into a One-Step Diffusion Model, enhancing perceptual quality through a single diffusion step guided by both temporal context and the latent itself. To better leverage temporal dependencies, we design a Temporal Context Adapter that encodes conditional inputs into multi-level features, offering more fine-grained guidance for the Denoising Unet. Additionally, we employ an End-to-End Finetuning strategy to improve overall compression performance. Extensive experiments demonstrate that DiffVC-OSD achieves state-of-the-art perceptual compression performance, offers about 20$\times$ faster decoding and a 86.92\% bitrate reduction compared to the corresponding multi-step diffusion-based variant.

Ссылки и действия