A Lightweight Dual-Mode Optimization for Generative Face Video Coding
2508.13547v1
cs.CV, eess.IV
2025-08-21
Авторы:
Zihan Zhang, Shanzhi Yin, Bolin Chen, Ru-Ling Liao, Shiqi Wang, Yan Ye
Резюме на русском
#### Контекст
Generative Face Video Coding (GFVC) является современным подходом к кодированию лиц в видео, основанным на искусственных нейронных сетях. Он достигает высокой эффективности в кодировании, обеспечивая высокое качество восстановления изображений с минимальным объемом данных. Однако существуют ряд проблем, связанных с высоким потреблением ресурсов, включая большой объем параметров моделей и высокие требования к вычислительным ресурсам. Эти ограничения затрудняют развертывание GFVC в ресурс-контрентных средах, таких как мобильные устройства. Целью данного исследования является развитие эффективной архитектуры GFVC, которая сочетает в себе уменьшение количества параметров и эффективность вычислений, не ухудшая качество восстановления.
#### Метод
Предлагаемая методика Dual-Mode Optimization состоит из двух основных компонентов: архитектурного редизайна и операционного уточнения. Архитектурный редизайн включает замену традиционных сверток 3x3 на более сжатые и быстрые слои, что позволяет сократить количество параметров без потери возможности выражения. Операционное уточнение включает в себя два этапа: (1) **soft pruning** во время обучения, при помощи программных масок и оптимизации, и (2) **hard pruning** после завершения обучения, когда неиспользуемые каналы удаляются навсегда с помощью полученных масок. Этот двухэтапный подход обеспечивает стабильность обучения и эффективность во время выполнения.
#### Результаты
Исследования включали в себя сравнение нового подхода с базовыми архитектурами GFVC на стандартных наборах данных. Наборы экспериментов показали, что уменьшение количества параметров достигло **90.4%**, а счетчик операций (FLOPs) сократился на **88.9%**. Уменьшение параметров и вычислительных затрат не привело к качеству восстановления, а наоборот, улучшило его в сравнении с текущими стандартами, такими как Versatile Video Coding (VVC). Эти результаты подтверждают эффективность нового подхода в ресурсно-ограниченных средах.
#### Значимость
Предлагаемый подход Dual-Mode Optimization может быть применён в различных областях, включая мобильные приложения, видеокодирование на устройствах безвесомости, и видеосервисы с низкой задержкой. Он привносит выгоду в уменьшении затрат на вычисления и энергосбережение. Благодаря своей эффективности и точности, этот подход может стать ключевым решением для развития мобильных устройств в области видеокодирования.
#### Выводы
Предложенная методика Dual-Mode Optimization является эффективным способом улучшения GFVC, обеспечивающим высокий уровень качества восстановления с минимальными ресурсами. В дальнейшем исследовании будет рассмот
Abstract
Generative Face Video Coding (GFVC) achieves superior rate-distortion
performance by leveraging the strong inference capabilities of deep generative
models. However, its practical deployment is hindered by large model parameters
and high computational costs. To address this, we propose a lightweight GFVC
framework that introduces dual-mode optimization -- combining architectural
redesign and operational refinement -- to reduce complexity whilst preserving
reconstruction quality. Architecturally, we replace traditional 3 x 3
convolutions with slimmer and more efficient layers, reducing complexity
without compromising feature expressiveness. Operationally, we develop a
two-stage adaptive channel pruning strategy: (1) soft pruning during training
identifies redundant channels via learnable thresholds, and (2) hard pruning
permanently eliminates these channels post-training using a derived mask. This
dual-phase approach ensures both training stability and inference efficiency.
Experimental results demonstrate that the proposed lightweight dual-mode
optimization for GFVC can achieve 90.4% parameter reduction and 88.9%
computation saving compared to the baseline, whilst achieving superior
performance compared to state-of-the-art video coding standard Versatile Video
Coding (VVC) in terms of perceptual-level quality metrics. As such, the
proposed method is expected to enable efficient GFVC deployment in
resource-constrained environments such as mobile edge devices.
Ссылки и действия
Дополнительные ресурсы: