A Lightweight Dual-Mode Optimization for Generative Face Video Coding

2508.13547v1 cs.CV, eess.IV 2025-08-21

Авторы:

Zihan Zhang, Shanzhi Yin, Bolin Chen, Ru-Ling Liao, Shiqi Wang, Yan Ye

Резюме на русском

#### Контекст Generative Face Video Coding (GFVC) является современным подходом к кодированию лиц в видео, основанным на искусственных нейронных сетях. Он достигает высокой эффективности в кодировании, обеспечивая высокое качество восстановления изображений с минимальным объемом данных. Однако существуют ряд проблем, связанных с высоким потреблением ресурсов, включая большой объем параметров моделей и высокие требования к вычислительным ресурсам. Эти ограничения затрудняют развертывание GFVC в ресурс-контрентных средах, таких как мобильные устройства. Целью данного исследования является развитие эффективной архитектуры GFVC, которая сочетает в себе уменьшение количества параметров и эффективность вычислений, не ухудшая качество восстановления. #### Метод Предлагаемая методика Dual-Mode Optimization состоит из двух основных компонентов: архитектурного редизайна и операционного уточнения. Архитектурный редизайн включает замену традиционных сверток 3x3 на более сжатые и быстрые слои, что позволяет сократить количество параметров без потери возможности выражения. Операционное уточнение включает в себя два этапа: (1) **soft pruning** во время обучения, при помощи программных масок и оптимизации, и (2) **hard pruning** после завершения обучения, когда неиспользуемые каналы удаляются навсегда с помощью полученных масок. Этот двухэтапный подход обеспечивает стабильность обучения и эффективность во время выполнения. #### Результаты Исследования включали в себя сравнение нового подхода с базовыми архитектурами GFVC на стандартных наборах данных. Наборы экспериментов показали, что уменьшение количества параметров достигло **90.4%**, а счетчик операций (FLOPs) сократился на **88.9%**. Уменьшение параметров и вычислительных затрат не привело к качеству восстановления, а наоборот, улучшило его в сравнении с текущими стандартами, такими как Versatile Video Coding (VVC). Эти результаты подтверждают эффективность нового подхода в ресурсно-ограниченных средах. #### Значимость Предлагаемый подход Dual-Mode Optimization может быть применён в различных областях, включая мобильные приложения, видеокодирование на устройствах безвесомости, и видеосервисы с низкой задержкой. Он привносит выгоду в уменьшении затрат на вычисления и энергосбережение. Благодаря своей эффективности и точности, этот подход может стать ключевым решением для развития мобильных устройств в области видеокодирования. #### Выводы Предложенная методика Dual-Mode Optimization является эффективным способом улучшения GFVC, обеспечивающим высокий уровень качества восстановления с минимальными ресурсами. В дальнейшем исследовании будет рассмот

Abstract

Generative Face Video Coding (GFVC) achieves superior rate-distortion performance by leveraging the strong inference capabilities of deep generative models. However, its practical deployment is hindered by large model parameters and high computational costs. To address this, we propose a lightweight GFVC framework that introduces dual-mode optimization -- combining architectural redesign and operational refinement -- to reduce complexity whilst preserving reconstruction quality. Architecturally, we replace traditional 3 x 3 convolutions with slimmer and more efficient layers, reducing complexity without compromising feature expressiveness. Operationally, we develop a two-stage adaptive channel pruning strategy: (1) soft pruning during training identifies redundant channels via learnable thresholds, and (2) hard pruning permanently eliminates these channels post-training using a derived mask. This dual-phase approach ensures both training stability and inference efficiency. Experimental results demonstrate that the proposed lightweight dual-mode optimization for GFVC can achieve 90.4% parameter reduction and 88.9% computation saving compared to the baseline, whilst achieving superior performance compared to state-of-the-art video coding standard Versatile Video Coding (VVC) in terms of perceptual-level quality metrics. As such, the proposed method is expected to enable efficient GFVC deployment in resource-constrained environments such as mobile edge devices.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Lightweight Dual-Mode Optimization for Generative Face Video Coding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Ultra-lightweight Neural Video Representation Compression

TinyViT: Field Deployable Transformer Pipeline for Solar Panel Surface Fault and...

Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detecti...

Data Augmentation Strategies for Robust Lane Marking Detection

The Determinant Ratio Matrix Approach to Solving 3D Matching and 2D Orthographic...

Навигация