Fourier-Guided Attention Upsampling for Image Super-Resolution

2508.10616v1 cs.CV, cs.AI 2025-08-16

Авторы:

Daejune Choi, Youchan No, Jinhyung Lee, Duksu Kim

Резюме на русском

## Контекст Изображение — одна из наиболее информативных форм данных, и его решение приобретает все более высокую значимость в современном мире. Одна из сложностей в обработке изображений — это повышение разрешения (super-resolution), которое требует восстановления финных деталей. Традиционные методы, такие как Sub-Pixel Convolution, неэффективны в восстановлении высокочастотных деталей и могут вводить алиасинг-артефакты. Недостаточное восстановление высокочастотных подробностей искажает реальность, что особенно критично в сферах, таких как медицина, авиация и анализ изображений. Мотивация заключается в разработке более эффективного и точного метода для повышения разрешения, который сочетает высокую точность и низкий расчетный вес. ## Метод Предлагаемый подход, Frequency-Guided Attention (FGA), является легковесным модулем для увеличения разрешения изображений. Он состоит из трех ключевых компонентов: 1. **Fourier Feature-based Multi-Layer Perceptron (MLP):** Этот MLP используется для позиционной кодировки частотных функций, что позволяет модели более точно понимать частотные характеристики изображения. 2. **Cross-Resolution Correlation Attention Layer:** Эта слойная структура адаптивно выравнивает детали в пространстве, что уменьшает алиасинг и повышает точность. 3. **Frequency-Domain L1 Loss:** Он используется для направленного улучшения спектральной согласованности, что обеспечивает более точное восстановление высокочастотных деталей. Такая архитектура демонстрирует способность эффективно использовать ресурсы, добавляя всего 0.3 миллиона параметров к существующим моделям. ## Результаты Исследователи провели эксперименты с FGA на 5 различных моделях для повышения разрешения изображений. Модель добавила 0.3 миллиона параметров и повысила мощность в целом. Она улучшила PSNR на 0.12–0.14 dB по сравнению с оригинальными моделями и повысила точность восстановления высокочастотных деталей на 29% в случае текстурно-богатых изображений. Эксперименты показали, что FGA справляется лучше с техническими артефактами и обеспечивает более точное восстановление финных деталей, особенно на изображениях с многочисленными текстурами. Эти результаты доказывают, что FGA является эффективным и менее ресурсоёмким вариантом по сравнению с традиционными методами. ## Значимость Предлагаемый подход может быть применен в различных областях, включая медицинскую изображейу, видео-анализ и анализ изображений в реальном времени. Он обеспечивает более точное восстановление изображений по сравнению с традиционными методами, что делает его привлекательным для приложений, где точность критична. Одним из основных преимуществ является уменьшение размера мо

Abstract

We propose Frequency-Guided Attention (FGA), a lightweight upsampling module for single image super-resolution. Conventional upsamplers, such as Sub-Pixel Convolution, are efficient but frequently fail to reconstruct high-frequency details and introduce aliasing artifacts. FGA addresses these issues by integrating (1) a Fourier feature-based Multi-Layer Perceptron (MLP) for positional frequency encoding, (2) a cross-resolution Correlation Attention Layer for adaptive spatial alignment, and (3) a frequency-domain L1 loss for spectral fidelity supervision. Adding merely 0.3M parameters, FGA consistently enhances performance across five diverse super-resolution backbones in both lightweight and full-capacity scenarios. Experimental results demonstrate average PSNR gains of 0.12~0.14 dB and improved frequency-domain consistency by up to 29%, particularly evident on texture-rich datasets. Visual and spectral evaluations confirm FGA's effectiveness in reducing aliasing and preserving fine details, establishing it as a practical, scalable alternative to traditional upsampling methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fourier-Guided Attention Upsampling for Image Super-Resolution

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация