Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

2508.04979v1 cs.CV 2025-08-09

Авторы:

Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang

Резюме на русском

**Резюме** В статье предлагается SODEC — новая модель для изображений с одношаговым процессом диффузии, которая решает ключевые проблемы существующих систем диффузионной компрессии. Традиционные многошаговые модели страдают от высокой задержки при декодировании и сниженной точности, вызванной сильным зависимостью от априорных знаний. SODEC решает эти задачи за счет того, что использует весьма информативные латентные представления, полученные с помощью предварительно обученной модели VAE. На основе этих представлений реализуется система одношагового декодирования, которая ускоряет обработку, а также добавляется механизм фидабэка для повышения точности результата. Кроме того, разработана стратегия пошагового уменьшения скорости размытия (rate annealing), позволяющая модель эффективно работать даже при очень низких битрейтах. Эксперименты показывают, что SODEC значительно превосходит существующие модели по размеру и скорости декодирования, а также улучшает качество изображений за счет более точного подхода к реализации информации. Данный подход может стать прорывом в области эффективной изображенческой компрессии.

Abstract

Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20$\times$. Code is released at: https://github.com/zhengchen1999/SODEC.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация