## Контекст
В современной информационной среде, где видеоконтент является одним из основных типов данных, возникает необходимость эффективных методов видеокодирования, которые обеспечивают низкие битрейты, высокое качество изображения и эффективность вычислительных ресурсов. Несмотря на прогресс в стандартах кодирования (H.264, H.265) и новые подходы, такие как сжатие на основе подбора фреймов (VVC), некоторые ограничения остаются. Например, в стандарте VVC реализованы многошаговые графы фильтров, которые улучшают качество, но приводят к высоким требованиям к вычислительной мощности. Это ограничивает их применение в реальном времени и мобильных приложениях. Большинство существующих методов сжатия видео, включая глубокие нейросетевые модели, полагаются на многошаговые процессы сжатия и сжатия восстановленного видео, что увеличивает сложность и затраты ресурсов. Из этой мотивации возникает необходимость развития простых, эффективных и высокопроизводительных алгоритмов для видеокодирования.
## Метод
Мы предлагаем DiffVC-OSD, новый единошаговый диффузионный фреймворк для перцептивного сжатия видео. Напротив многошаговых диффузионных подходов, DiffVC-OSD использует одношаговый диффузионный модель, что позволяет лучше использовать контекст времени и собственные свойства лиатентного представления. В центре DiffVC-OSD лежит Temporal Context Adapter, который кодирует входные данные в виде нескольких уровней признаков, чтобы предоставить более тонкую информацию для Denoising Unet. Это позволяет модели лучше учитывать контекст в процессе сжатия. Кроме того, мы внедряем End-to-End Finetuning, чтобы улучшить общую эффективность сжатия. Эти технические решения объединяются в архитектуру, которая упрощает процесс, уменьшает затраты ресурсов и повышает качество видео.
## Результаты
Мы провели ряд экспериментов, используя различные данные видео, чтобы оценить производительность DiffVC-OSD. Ключевые показатели, такие как PSNR, SSIM и LPIPS, были вычислены для сравнения с другими стандартными алгоритмами кодирования. Результаты показали, что DiffVC-OSD достигает значительного улучшения показателей качества изображения, особенно в перцептивном плане. Он также достиг до 20-кратного увеличения скорости декодирования в сравнении с многошаговыми диффузионными моделями. Битрейт был снижен на 86.92% по сравнению с ними. Эти результаты демонстрируют преимущества DiffVC-OSD в режимах с низким битрейтом и высокой производительностью.
## Значимость
Предлагаемый подход имеет широкие применения в различных сферах, включая мобильные приложения