Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

2508.16557v1 eess.IV, cs.AI, cs.CV 2025-08-26
Авторы:

Tainyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang, Bo Li, Ming-Ming Cheng, Chun-Le Guo, Chongyi Li

Резюме на русском

#### Контекст Real-world image super-resolution (Real-ISR) является ключевым заданием в области компьютерного зрения, нацеленным на повышение разрешения изображений с ограниченным качеством. Несмотря на успех многих текущих методов, они часто сталкиваются с проблемами, такими как нехватка эффективности в использовании существующих моделей и недостаточная точность в работе с реальными данными. Актуальность данного исследования заключается в поиске новых подходов, которые могут эффективно использовать предварительно обученные модели моделирования шума (стабильное моделирование шума, SD) для решения Real-ISR. #### Метод Мы предлагаем Time-Aware One-Step Diffusion Network (TADSR) для решения Real-ISR. Главная инновация заключается в использовании Time-Aware VAE Encoder, который вводит временное зависимости в процесс выделения признаков. Это позволяет модели работать с разными шумовыми версиями изображений в зависимости от шага шума (timestep). Кроме того, мы предлагаем Time-Aware VSD loss, который динамически коррелирует шаги шума степени степенисти между студентской моделью и предварительно обученной моделью. Это позволяет лучше оптимизировать синтез изображений, стабилизировав результат и улучшая качество изображения. #### Результаты Мы провели эксперименты на широко известных наборах данных для Real-ISR. Метод TADSR демонстрирует выдающиеся результаты по сравнению с другими методами одношагового подхода. Мы измерили показатели PSNR, SSIM и LPIPS, показав, что наш подход превосходит другие методы по этим метрикам. Благодаря возможности управления шагами шума (timestep), TADSR также обеспечивает контролируемую точность и реализм в результатах. #### Значимость Наш подход может быть применен в различных сценариях, включая супер-разрешение для телекоммуникаций, медицины и видеотрансляций. Преимущества TADSR заключаются в том, что он эффективно использует предварительно обученные модели, не требуя дополнительного обучения или переобучения. Это приводит к повышению эффективности и снижению затрат на ресурсы. Будущие исследования будут направлены на расширение модели для работы с видео и мультискайрным подходом. #### Выводы Метод TADSR доказал свою эффективность в решении Real-ISR, достигнув более высокого качества изображений с меньшими вычислительными затратами. Наши результаты показывают, что динамические временные зависимости и управляемые шаги шума являются ключевыми факторами улучшения результатов. Мы планируем расширить модель для применения в других областях и внедрить ее в реальные системы.

Abstract

Diffusion-based real-world image super-resolution (Real-ISR) methods have demonstrated impressive performance. To achieve efficient Real-ISR, many works employ Variational Score Distillation (VSD) to distill pre-trained stable-diffusion (SD) model for one-step SR with a fixed timestep. However, due to the different noise injection timesteps, the SD will perform different generative priors. Therefore, a fixed timestep is difficult for these methods to fully leverage the generative priors in SD, leading to suboptimal performance. To address this, we propose a Time-Aware one-step Diffusion Network for Real-ISR (TADSR). We first introduce a Time-Aware VAE Encoder, which projects the same image into different latent features based on timesteps. Through joint dynamic variation of timesteps and latent features, the student model can better align with the input pattern distribution of the pre-trained SD, thereby enabling more effective utilization of SD's generative capabilities. To better activate the generative prior of SD at different timesteps, we propose a Time-Aware VSD loss that bridges the timesteps of the student model and those of the teacher model, thereby producing more consistent generative prior guidance conditioned on timesteps. Additionally, though utilizing the generative prior in SD at different timesteps, our method can naturally achieve controllable trade-offs between fidelity and realism by changing the timestep condition. Experimental results demonstrate that our method achieves both state-of-the-art performance and controllable SR results with only a single step.

Ссылки и действия