OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution

2508.08227v1 cs.CV, cs.AI 2025-08-13

Авторы:

Zhiqiang Wu, Zhaomang Sun, Tong Zhou, Bingtao Fu, Ji Cong, Yitong Dong, Huaqi Zhang, Xuan Tang, Mingsong Chen, Xian Wei

Резюме на русском

## Контекст Область исследования — реальномировые задачи суперразрешения изображений (Real-World Image Super-Resolution, Real-ISR). Данная область широко применяется в графике, видеоредактировании и виртуальной реальности. Однако существуют следующие проблемы: 1. Ограниченная эффективность существующих методов при работе с низкокачественными (LQ) изображениями. 2. Ограниченная точность восстановления деталей в результирующих изображениях. 3. Необходимость решения проблемы синхронизации между низкокачественным и высококачественным изображениями для эффективного использования генеративных моделей. Мотивация заключается в создании универсального фреймворка, который бы устранил ограничения декодирования и обеспечил более точное восстановление деталей. ## Метод Предлагается One Mid-timestep Guidance Real-ISR (OMGSR) — универсальная модель, основанная на Denoising Diffusion Probabilistic Models (DDPM) и Flow Matching (FM). OMGSR инъектирует LQ image latent distribution в оптимальной точке (mid-timestep), решая проблему гапа между распределениями LQ и шумных нормальных распределений. Для повышения точности решения используется Latent Distribution Refinement loss. Для устранения чекерборд-артефактов при генерации используется Overlap-Chunked LPIPS/GAN loss. Фреймворк включает две вариации: OMGSR-S и OMGSR-F. Модель тренируется и эксперименты проводятся на задаче 512-резолюции, а также на 1k-резолюции с использованием Tiled VAE & Diffusion. ## Результаты Проведены эксперименты с популярными датасетовыми задачами (одномерные и бинарные). Модель OMGSR-S показывает балансированное качество в 512-резолюции, в то время как OMGSR-F демонстрирует оптимальное качество. На 1k-резолюции OMGSR-F обеспечивает выдающиеся результаты, особенно в деталях изображений. Также удалось генерировать изображения 2k-резолюции с помощью двухэтапного Tiled VAE & Diffusion. Эти результаты подтверждают эффективность OMGSR в решении задачи Real-ISR. ## Значимость OMGSR может применяться в решении следующих задач: 1. Реальномировых задачах суперразрешения изображений в видеоредактировании и графике. 2. Эффективной работе с низкокачественными данными и их преобразовании в высококачественные. 3. Улучшении деталей в изображениях без потери точности. Особенности: - Универсальность и эффективность в работе с различными методами DDPM и FM. - Устранение проблемы синхронизации распределений. - Улучшение деталей изображений с низкого качества. Потенциальное влияние: OMGSR может стать ключевым инструментом для развития технологий в области графики, видеоредактирования и виртуальной реальности. ## Выводы OMGS

Abstract

Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM) generative models show promising potential for one-step Real-World Image Super-Resolution (Real-ISR). Recent one-step Real-ISR models typically inject a Low-Quality (LQ) image latent distribution at the initial timestep. However, a fundamental gap exists between the LQ image latent distribution and the Gaussian noisy latent distribution, limiting the effective utilization of generative priors. We observe that the noisy latent distribution at DDPM/FM mid-timesteps aligns more closely with the LQ image latent distribution. Based on this insight, we present One Mid-timestep Guidance Real-ISR (OMGSR), a universal framework applicable to DDPM/FM-based generative models. OMGSR injects the LQ image latent distribution at a pre-computed mid-timestep, incorporating the proposed Latent Distribution Refinement loss to alleviate the latent distribution gap. We also design the Overlap-Chunked LPIPS/GAN loss to eliminate checkerboard artifacts in image generation. Within this framework, we instantiate OMGSR for DDPM/FM-based generative models with two variants: OMGSR-S (SD-Turbo) and OMGSR-F (FLUX.1-dev). Experimental results demonstrate that OMGSR-S/F achieves balanced/excellent performance across quantitative and qualitative metrics at 512-resolution. Notably, OMGSR-F establishes overwhelming dominance in all reference metrics. We further train a 1k-resolution OMGSR-F to match the default resolution of FLUX.1-dev, which yields excellent results, especially in the details of the image generation. We also generate 2k-resolution images by the 1k-resolution OMGSR-F using our two-stage Tiled VAE & Diffusion.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация