OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution
2508.08227v1
cs.CV, cs.AI
2025-08-13
Авторы:
Zhiqiang Wu, Zhaomang Sun, Tong Zhou, Bingtao Fu, Ji Cong, Yitong Dong, Huaqi Zhang, Xuan Tang, Mingsong Chen, Xian Wei
Резюме на русском
## Контекст
Область исследования — реальномировые задачи суперразрешения изображений (Real-World Image Super-Resolution, Real-ISR). Данная область широко применяется в графике, видеоредактировании и виртуальной реальности. Однако существуют следующие проблемы:
1. Ограниченная эффективность существующих методов при работе с низкокачественными (LQ) изображениями.
2. Ограниченная точность восстановления деталей в результирующих изображениях.
3. Необходимость решения проблемы синхронизации между низкокачественным и высококачественным изображениями для эффективного использования генеративных моделей.
Мотивация заключается в создании универсального фреймворка, который бы устранил ограничения декодирования и обеспечил более точное восстановление деталей.
## Метод
Предлагается One Mid-timestep Guidance Real-ISR (OMGSR) — универсальная модель, основанная на Denoising Diffusion Probabilistic Models (DDPM) и Flow Matching (FM). OMGSR инъектирует LQ image latent distribution в оптимальной точке (mid-timestep), решая проблему гапа между распределениями LQ и шумных нормальных распределений. Для повышения точности решения используется Latent Distribution Refinement loss. Для устранения чекерборд-артефактов при генерации используется Overlap-Chunked LPIPS/GAN loss. Фреймворк включает две вариации: OMGSR-S и OMGSR-F. Модель тренируется и эксперименты проводятся на задаче 512-резолюции, а также на 1k-резолюции с использованием Tiled VAE & Diffusion.
## Результаты
Проведены эксперименты с популярными датасетовыми задачами (одномерные и бинарные). Модель OMGSR-S показывает балансированное качество в 512-резолюции, в то время как OMGSR-F демонстрирует оптимальное качество. На 1k-резолюции OMGSR-F обеспечивает выдающиеся результаты, особенно в деталях изображений. Также удалось генерировать изображения 2k-резолюции с помощью двухэтапного Tiled VAE & Diffusion. Эти результаты подтверждают эффективность OMGSR в решении задачи Real-ISR.
## Значимость
OMGSR может применяться в решении следующих задач:
1. Реальномировых задачах суперразрешения изображений в видеоредактировании и графике.
2. Эффективной работе с низкокачественными данными и их преобразовании в высококачественные.
3. Улучшении деталей в изображениях без потери точности.
Особенности:
- Универсальность и эффективность в работе с различными методами DDPM и FM.
- Устранение проблемы синхронизации распределений.
- Улучшение деталей изображений с низкого качества.
Потенциальное влияние:
OMGSR может стать ключевым инструментом для развития технологий в области графики, видеоредактирования и виртуальной реальности.
## Выводы
OMGS
Abstract
Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM)
generative models show promising potential for one-step Real-World Image
Super-Resolution (Real-ISR). Recent one-step Real-ISR models typically inject a
Low-Quality (LQ) image latent distribution at the initial timestep. However, a
fundamental gap exists between the LQ image latent distribution and the
Gaussian noisy latent distribution, limiting the effective utilization of
generative priors. We observe that the noisy latent distribution at DDPM/FM
mid-timesteps aligns more closely with the LQ image latent distribution. Based
on this insight, we present One Mid-timestep Guidance Real-ISR (OMGSR), a
universal framework applicable to DDPM/FM-based generative models. OMGSR
injects the LQ image latent distribution at a pre-computed mid-timestep,
incorporating the proposed Latent Distribution Refinement loss to alleviate the
latent distribution gap. We also design the Overlap-Chunked LPIPS/GAN loss to
eliminate checkerboard artifacts in image generation. Within this framework, we
instantiate OMGSR for DDPM/FM-based generative models with two variants:
OMGSR-S (SD-Turbo) and OMGSR-F (FLUX.1-dev). Experimental results demonstrate
that OMGSR-S/F achieves balanced/excellent performance across quantitative and
qualitative metrics at 512-resolution. Notably, OMGSR-F establishes
overwhelming dominance in all reference metrics. We further train a
1k-resolution OMGSR-F to match the default resolution of FLUX.1-dev, which
yields excellent results, especially in the details of the image generation. We
also generate 2k-resolution images by the 1k-resolution OMGSR-F using our
two-stage Tiled VAE & Diffusion.
Ссылки и действия
Дополнительные ресурсы: