Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
2508.04979v1
cs.CV
2025-08-09
Авторы:
Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
Резюме на русском
**Резюме**
В статье предлагается SODEC — новая модель для изображений с одношаговым процессом диффузии, которая решает ключевые проблемы существующих систем диффузионной компрессии. Традиционные многошаговые модели страдают от высокой задержки при декодировании и сниженной точности, вызванной сильным зависимостью от априорных знаний. SODEC решает эти задачи за счет того, что использует весьма информативные латентные представления, полученные с помощью предварительно обученной модели VAE. На основе этих представлений реализуется система одношагового декодирования, которая ускоряет обработку, а также добавляется механизм фидабэка для повышения точности результата. Кроме того, разработана стратегия пошагового уменьшения скорости размытия (rate annealing), позволяющая модель эффективно работать даже при очень низких битрейтах. Эксперименты показывают, что SODEC значительно превосходит существующие модели по размеру и скорости декодирования, а также улучшает качество изображений за счет более точного подхода к реализации информации. Данный подход может стать прорывом в области эффективной изображенческой компрессии.
Abstract
Diffusion-based image compression has demonstrated impressive perceptual
performance. However, it suffers from two critical drawbacks: (1) excessive
decoding latency due to multi-step sampling, and (2) poor fidelity resulting
from over-reliance on generative priors. To address these issues, we propose
SODEC, a novel single-step diffusion image compression model. We argue that in
image compression, a sufficiently informative latent renders multi-step
refinement unnecessary. Based on this insight, we leverage a pre-trained
VAE-based model to produce latents with rich information, and replace the
iterative denoising process with a single-step decoding. Meanwhile, to improve
fidelity, we introduce the fidelity guidance module, encouraging output that is
faithful to the original image. Furthermore, we design the rate annealing
training strategy to enable effective training under extremely low bitrates.
Extensive experiments show that SODEC significantly outperforms existing
methods, achieving superior rate-distortion-perception performance. Moreover,
compared to previous diffusion-based compression models, SODEC improves
decoding speed by more than 20$\times$. Code is released at:
https://github.com/zhengchen1999/SODEC.
Ссылки и действия
Дополнительные ресурсы: