Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution
2508.16557v1
eess.IV, cs.AI, cs.CV
2025-08-26
Авторы:
Tainyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang, Bo Li, Ming-Ming Cheng, Chun-Le Guo, Chongyi Li
Резюме на русском
#### Контекст
Real-world image super-resolution (Real-ISR) является ключевым заданием в области компьютерного зрения, нацеленным на повышение разрешения изображений с ограниченным качеством. Несмотря на успех многих текущих методов, они часто сталкиваются с проблемами, такими как нехватка эффективности в использовании существующих моделей и недостаточная точность в работе с реальными данными. Актуальность данного исследования заключается в поиске новых подходов, которые могут эффективно использовать предварительно обученные модели моделирования шума (стабильное моделирование шума, SD) для решения Real-ISR.
#### Метод
Мы предлагаем Time-Aware One-Step Diffusion Network (TADSR) для решения Real-ISR. Главная инновация заключается в использовании Time-Aware VAE Encoder, который вводит временное зависимости в процесс выделения признаков. Это позволяет модели работать с разными шумовыми версиями изображений в зависимости от шага шума (timestep). Кроме того, мы предлагаем Time-Aware VSD loss, который динамически коррелирует шаги шума степени степенисти между студентской моделью и предварительно обученной моделью. Это позволяет лучше оптимизировать синтез изображений, стабилизировав результат и улучшая качество изображения.
#### Результаты
Мы провели эксперименты на широко известных наборах данных для Real-ISR. Метод TADSR демонстрирует выдающиеся результаты по сравнению с другими методами одношагового подхода. Мы измерили показатели PSNR, SSIM и LPIPS, показав, что наш подход превосходит другие методы по этим метрикам. Благодаря возможности управления шагами шума (timestep), TADSR также обеспечивает контролируемую точность и реализм в результатах.
#### Значимость
Наш подход может быть применен в различных сценариях, включая супер-разрешение для телекоммуникаций, медицины и видеотрансляций. Преимущества TADSR заключаются в том, что он эффективно использует предварительно обученные модели, не требуя дополнительного обучения или переобучения. Это приводит к повышению эффективности и снижению затрат на ресурсы. Будущие исследования будут направлены на расширение модели для работы с видео и мультискайрным подходом.
#### Выводы
Метод TADSR доказал свою эффективность в решении Real-ISR, достигнув более высокого качества изображений с меньшими вычислительными затратами. Наши результаты показывают, что динамические временные зависимости и управляемые шаги шума являются ключевыми факторами улучшения результатов. Мы планируем расширить модель для применения в других областях и внедрить ее в реальные системы.
Abstract
Diffusion-based real-world image super-resolution (Real-ISR) methods have
demonstrated impressive performance. To achieve efficient Real-ISR, many works
employ Variational Score Distillation (VSD) to distill pre-trained
stable-diffusion (SD) model for one-step SR with a fixed timestep. However, due
to the different noise injection timesteps, the SD will perform different
generative priors. Therefore, a fixed timestep is difficult for these methods
to fully leverage the generative priors in SD, leading to suboptimal
performance. To address this, we propose a Time-Aware one-step Diffusion
Network for Real-ISR (TADSR). We first introduce a Time-Aware VAE Encoder,
which projects the same image into different latent features based on
timesteps. Through joint dynamic variation of timesteps and latent features,
the student model can better align with the input pattern distribution of the
pre-trained SD, thereby enabling more effective utilization of SD's generative
capabilities. To better activate the generative prior of SD at different
timesteps, we propose a Time-Aware VSD loss that bridges the timesteps of the
student model and those of the teacher model, thereby producing more consistent
generative prior guidance conditioned on timesteps. Additionally, though
utilizing the generative prior in SD at different timesteps, our method can
naturally achieve controllable trade-offs between fidelity and realism by
changing the timestep condition. Experimental results demonstrate that our
method achieves both state-of-the-art performance and controllable SR results
with only a single step.
Ссылки и действия
Дополнительные ресурсы: