Large Kernel Modulation Network for Efficient Image Super-Resolution

2508.11893v1 cs.CV, eess.IV 2025-08-19
Авторы:

Quanwei Hu, Yinggan Tang, Xuguang Zhang

Резюме на русском

#### Контекст Изображение с повышенным разрешением (SR) в ресурсоразрушительных сценариях требует моделей с минимальным объемом вычислительных ресурсов, сбалансированными показателями качества и производительностью. Легкие модели сверточных нейронных сетей (CNNs) обеспечивают высокую производительность за счет быстрого выполнения вычислений. Однако они страдают от неэффективного моделирования неоднородных признаков. Трансформеры, напротив, хорошо справляются с неоднородностью, но часто требуют большого объема вычислительных ресурсов, что неприемлемо для ресурсоразрушительных сценариев. Это существующая проблема в области изображения с повышенным разрешением, которая мотивирует разработку моделей, способных эффективно решать задачи SR без значительных затрат ресурсов. #### Метод Large Kernel Modulation Network (LKMN) представляет собой CNN-based модель, сочетающую высокое качество с моделированием неоднородных признаков. Модель включает два основных компонента: Enhanced Partial Large Kernel Block (EPLKB) и Cross-Gate Feed-Forward Network (CGFN). EPLKB использует канальную перемешивание (channel shuffle) для улучшения взаимодействия каналов и добавляет канальное внимание (channel attention), чтобы сосредоточиться на ключевых деталях. Большие ядра (large kernel strip), применяемые на части каналов, позволяют эффективно извлекать неоднородные признаки с сокращенной сложностью. CGFN анализирует информацию о скоринге неоднородных и локальных признаков, адаптируясь с помощью динамического scale factor. Затем, CGFN использует cross-gate стратегию для модуляции и слияния этих признаков, что дает улучшенную гармонию и эффективность. #### Результаты Наши эксперименты проводились на датасете Manga109 с различными множителями увеличения (upscale). Модель LKMN-L отличалась высоким PSNR (0.23 dB выше DAT-light) и незначительным увеличением времени работы (почти $\times$4.8 быстрее). Это демонстрирует эффективность LKMN в сравнении с другими SOTA моделями, которые либо недостаточно эффективны, либо недостаточно точны. Обучающие данные и результаты доступны в ссылке на GitHub (https://github.com/Supereeeee/LKMN), где модель и ее код могут быть проанализированы и использованы для дальнейших исследований. #### Значимость LKMN является сильным конкурентом в области SR для ресурсоразрушительных сценариев. Он обладает высоким качеством изображения, оптимальным балансом между качеством и производительностью, а также широким потенциалом для применения в реальных ситуациях, таких как мобильные приложения или устройства с ограниченными ресурсами. Наша модель предлагает новый подход к решению задачи SR, который может быть расширен и применен в других областях, таких как computer vision и image processing. #### Выводы Результаты нашего исследования показа

Abstract

Image super-resolution (SR) in resource-constrained scenarios demands lightweight models balancing performance and latency. Convolutional neural networks (CNNs) offer low latency but lack non-local feature capture, while Transformers excel at non-local modeling yet suffer slow inference. To address this trade-off, we propose the Large Kernel Modulation Network (LKMN), a pure CNN-based model. LKMN has two core components: Enhanced Partial Large Kernel Block (EPLKB) and Cross-Gate Feed-Forward Network (CGFN). The EPLKB utilizes channel shuffle to boost inter-channel interaction, incorporates channel attention to focus on key information, and applies large kernel strip convolutions on partial channels for non-local feature extraction with reduced complexity. The CGFN dynamically adjusts discrepancies between input, local, and non-local features via a learnable scaling factor, then employs a cross-gate strategy to modulate and fuse these features, enhancing their complementarity. Extensive experiments demonstrate that our method outperforms existing state-of-the-art (SOTA) lightweight SR models while balancing quality and efficiency. Specifically, LKMN-L achieves 0.23 dB PSNR improvement over DAT-light on the Manga109 dataset at $\times$4 upscale, with nearly $\times$4.8 times faster. Codes are in the supplementary materials. The code is available at https://github.com/Supereeeee/LKMN.

Ссылки и действия