DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework
2508.07682v1
eess.IV, cs.CV
2025-08-13
Авторы:
Wenzhuo Ma, Zhenzhong Chen
Резюме на русском
## Контекст
В современной информационной среде, где видеоконтент является одним из основных типов данных, возникает необходимость эффективных методов видеокодирования, которые обеспечивают низкие битрейты, высокое качество изображения и эффективность вычислительных ресурсов. Несмотря на прогресс в стандартах кодирования (H.264, H.265) и новые подходы, такие как сжатие на основе подбора фреймов (VVC), некоторые ограничения остаются. Например, в стандарте VVC реализованы многошаговые графы фильтров, которые улучшают качество, но приводят к высоким требованиям к вычислительной мощности. Это ограничивает их применение в реальном времени и мобильных приложениях. Большинство существующих методов сжатия видео, включая глубокие нейросетевые модели, полагаются на многошаговые процессы сжатия и сжатия восстановленного видео, что увеличивает сложность и затраты ресурсов. Из этой мотивации возникает необходимость развития простых, эффективных и высокопроизводительных алгоритмов для видеокодирования.
## Метод
Мы предлагаем DiffVC-OSD, новый единошаговый диффузионный фреймворк для перцептивного сжатия видео. Напротив многошаговых диффузионных подходов, DiffVC-OSD использует одношаговый диффузионный модель, что позволяет лучше использовать контекст времени и собственные свойства лиатентного представления. В центре DiffVC-OSD лежит Temporal Context Adapter, который кодирует входные данные в виде нескольких уровней признаков, чтобы предоставить более тонкую информацию для Denoising Unet. Это позволяет модели лучше учитывать контекст в процессе сжатия. Кроме того, мы внедряем End-to-End Finetuning, чтобы улучшить общую эффективность сжатия. Эти технические решения объединяются в архитектуру, которая упрощает процесс, уменьшает затраты ресурсов и повышает качество видео.
## Результаты
Мы провели ряд экспериментов, используя различные данные видео, чтобы оценить производительность DiffVC-OSD. Ключевые показатели, такие как PSNR, SSIM и LPIPS, были вычислены для сравнения с другими стандартными алгоритмами кодирования. Результаты показали, что DiffVC-OSD достигает значительного улучшения показателей качества изображения, особенно в перцептивном плане. Он также достиг до 20-кратного увеличения скорости декодирования в сравнении с многошаговыми диффузионными моделями. Битрейт был снижен на 86.92% по сравнению с ними. Эти результаты демонстрируют преимущества DiffVC-OSD в режимах с низким битрейтом и высокой производительностью.
## Значимость
Предлагаемый подход имеет широкие применения в различных сферах, включая мобильные приложения
Abstract
In this work, we first propose DiffVC-OSD, a One-Step Diffusion-based
Perceptual Neural Video Compression framework. Unlike conventional multi-step
diffusion-based methods, DiffVC-OSD feeds the reconstructed latent
representation directly into a One-Step Diffusion Model, enhancing perceptual
quality through a single diffusion step guided by both temporal context and the
latent itself. To better leverage temporal dependencies, we design a Temporal
Context Adapter that encodes conditional inputs into multi-level features,
offering more fine-grained guidance for the Denoising Unet. Additionally, we
employ an End-to-End Finetuning strategy to improve overall compression
performance. Extensive experiments demonstrate that DiffVC-OSD achieves
state-of-the-art perceptual compression performance, offers about 20$\times$
faster decoding and a 86.92\% bitrate reduction compared to the corresponding
multi-step diffusion-based variant.
Ссылки и действия
Дополнительные ресурсы: