Fourier-Guided Attention Upsampling for Image Super-Resolution
2508.10616v1
cs.CV, cs.AI
2025-08-16
Авторы:
Daejune Choi, Youchan No, Jinhyung Lee, Duksu Kim
Резюме на русском
## Контекст
Изображение — одна из наиболее информативных форм данных, и его решение приобретает все более высокую значимость в современном мире. Одна из сложностей в обработке изображений — это повышение разрешения (super-resolution), которое требует восстановления финных деталей. Традиционные методы, такие как Sub-Pixel Convolution, неэффективны в восстановлении высокочастотных деталей и могут вводить алиасинг-артефакты. Недостаточное восстановление высокочастотных подробностей искажает реальность, что особенно критично в сферах, таких как медицина, авиация и анализ изображений. Мотивация заключается в разработке более эффективного и точного метода для повышения разрешения, который сочетает высокую точность и низкий расчетный вес.
## Метод
Предлагаемый подход, Frequency-Guided Attention (FGA), является легковесным модулем для увеличения разрешения изображений. Он состоит из трех ключевых компонентов:
1. **Fourier Feature-based Multi-Layer Perceptron (MLP):** Этот MLP используется для позиционной кодировки частотных функций, что позволяет модели более точно понимать частотные характеристики изображения.
2. **Cross-Resolution Correlation Attention Layer:** Эта слойная структура адаптивно выравнивает детали в пространстве, что уменьшает алиасинг и повышает точность.
3. **Frequency-Domain L1 Loss:** Он используется для направленного улучшения спектральной согласованности, что обеспечивает более точное восстановление высокочастотных деталей.
Такая архитектура демонстрирует способность эффективно использовать ресурсы, добавляя всего 0.3 миллиона параметров к существующим моделям.
## Результаты
Исследователи провели эксперименты с FGA на 5 различных моделях для повышения разрешения изображений. Модель добавила 0.3 миллиона параметров и повысила мощность в целом. Она улучшила PSNR на 0.12–0.14 dB по сравнению с оригинальными моделями и повысила точность восстановления высокочастотных деталей на 29% в случае текстурно-богатых изображений. Эксперименты показали, что FGA справляется лучше с техническими артефактами и обеспечивает более точное восстановление финных деталей, особенно на изображениях с многочисленными текстурами. Эти результаты доказывают, что FGA является эффективным и менее ресурсоёмким вариантом по сравнению с традиционными методами.
## Значимость
Предлагаемый подход может быть применен в различных областях, включая медицинскую изображейу, видео-анализ и анализ изображений в реальном времени. Он обеспечивает более точное восстановление изображений по сравнению с традиционными методами, что делает его привлекательным для приложений, где точность критична. Одним из основных преимуществ является уменьшение размера мо
Abstract
We propose Frequency-Guided Attention (FGA), a lightweight upsampling module
for single image super-resolution. Conventional upsamplers, such as Sub-Pixel
Convolution, are efficient but frequently fail to reconstruct high-frequency
details and introduce aliasing artifacts. FGA addresses these issues by
integrating (1) a Fourier feature-based Multi-Layer Perceptron (MLP) for
positional frequency encoding, (2) a cross-resolution Correlation Attention
Layer for adaptive spatial alignment, and (3) a frequency-domain L1 loss for
spectral fidelity supervision. Adding merely 0.3M parameters, FGA consistently
enhances performance across five diverse super-resolution backbones in both
lightweight and full-capacity scenarios. Experimental results demonstrate
average PSNR gains of 0.12~0.14 dB and improved frequency-domain consistency by
up to 29%, particularly evident on texture-rich datasets. Visual and spectral
evaluations confirm FGA's effectiveness in reducing aliasing and preserving
fine details, establishing it as a practical, scalable alternative to
traditional upsampling methods.
Ссылки и действия
Дополнительные ресурсы: