LKFMixer: Exploring Large Kernel Feature For Efficient Image Super-Resolution

2508.11391v1 eess.IV, cs.CV 2025-08-19

Авторы:

Yinggan Tang, Quanwei Hu

Резюме на русском

#### Контекст Решение задачи интерполяции разрешения изображений (Super-Resolution, SR) является ключевым в области обработки изображений, поскольку оно позволяет восстановить масштабированные изображения с высоким разрешением из низкокачественных исходных данных. Особенно значимо это для применений, где качество изображения критично, например, в медицине, аэрофотосъемке и развитии игр. Однако два параллельных тренда сделали эту задачу актуальной и сложной: рост спроса на эффективные модели, которые могут быстро обрабатывать изображения на устройствах с ограниченными ресурсами, и растущее желание использовать новые архитектуры, такие как Transformer, для достижения высокого качества восстановления. Традиционные модели CNN часто не могут конкурировать с новыми самоп paжимающимися моделями в плане качества, но они остаются более эффективными в плане вычислительных затрат. #### Метод LKFMixer — это модель, основанная на конвейерной сети сверточных нейронных сетей (CNN), которая решает проблему нехватки ненарушающей (не-локальной) информации в обычных моделях SR. Основная идея заключается в использовании больших ядер сверток (до 31 × 31) для увеличения ресиевлюального поля и повышения качества восстановления. Для уменьшения параметров и вычислительных затрат применяется специальная координатно-декомпозиционная техника. Особенностью модели является Spatial Feature Modulation Block (SFMB), который улучшает сфокусированность модели на как пространственных, так и канальных фичах. Для динамического управления вкладом локальных и ненарушающих фич в выходное представление используется Feature Selection Block (FSB). Архитектура LKFMixer удалось сочетать скорость обучения CNN с преимуществами работы с ненарушающей информацией, подражая при этом самоп paжимающимся подходу. #### Результаты Эксперименты проводились на таких данных, как Manga109 и DIV2K. Использовался метрика PSNR для оценки качества восстановления, а также сравнивалось время итерации модели. Модель LKFMixer-L показала себя лучше, чем SwinIR-light на датасете Manga109, улучшив PSNR на $\times$4 scale на 0.6 dB, при этом выполняя запросы в $\times$5 раз быстрее. Такие результаты подтверждают высокую эффективность LKFMixer в сравнении с современными моделями, особенно если подчеркнуть, что у LKFMixer более низкий показатель FLOPs (математического оперативного взаимодействия) по сравнению с соперниками. #### Значимость Высокая точность и эффективность LKFMixer делают ее привлекательной для широкого круга приложений, включая мобильные устройства, сетевые приложения и реального времени. Модель позволяет сочетать высокие качество восстановления и скорость вычислений, что является критичным для реально

Abstract

The success of self-attention (SA) in Transformer demonstrates the importance of non-local information to image super-resolution (SR), but the huge computing power required makes it difficult to implement lightweight models. To solve this problem, we propose a pure convolutional neural network (CNN) model, LKFMixer, which utilizes large convolutional kernel to simulate the ability of self-attention to capture non-local features. Specifically, we increase the kernel size to 31 to obtain the larger receptive field as possible, and reduce the parameters and computations by coordinate decomposition. Meanwhile, a spatial feature modulation block (SFMB) is designed to enhance the focus of feature information on both spatial and channel dimension. In addition, by introducing feature selection block (FSB), the model can adaptively adjust the weights between local features and non-local features. Extensive experiments show that the proposed LKFMixer family outperform other state-of-the-art (SOTA) methods in terms of SR performance and reconstruction quality. In particular, compared with SwinIR-light on Manga109 dataset, LKFMixer-L achieves 0.6dB PSNR improvement at $\times$4 scale, while the inference speed is $\times$5 times faster. The code is available at https://github.com/Supereeeee/LKFMixer.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LKFMixer: Exploring Large Kernel Feature For Efficient Image Super-Resolution

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Disentangling Progress in Medical Image Registration: Beyond Trend-Driven Archit...

ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colono...

Content Adaptive Encoding For Interactive Game Streaming

Hard Spatial Gating for Precision-Driven Brain Metastasis Segmentation: Addressi...

Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data

Навигация