THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening

2508.08183v1 cs.CV, eess.IV 2025-08-13
Авторы:

Hongkun Jin, Hongcheng Jiang, Zejun Zhang, Yuan Zhang, Jia Fu, Tingfeng Li, Kai Luo

Резюме на русском

## Контекст Исследование сосредоточено на задаче hyperspectral pansharpening, которая предназначена для точного реконструкции высокого разрешения спектральных (hyperspectral) изображений, используя дополнительные спутниковые снимки с высоким разрешением (pansharpened). Традиционные методы часто сталкиваются с проблемами, такими как затухание высокочастотных компонент в изображении (например, границы материалов и текстурные переходы) и распределение внимания между ненужными токенами. Эти ограничения приводят к ухудшению точности реконструкции и неэффективности алгоритмов. Необходимость улучшения этих аспектов мотивировала развитие новых архитектур, которые могли бы более эффективно обрабатывать hyperspectral images. ## Метод THAT (Token-wise High-frequency Augmentation Transformer) представляет собой передовую архитектуру, основанную на Vision Transformers (ViTs), с улучшенными механизмами для обработки высокочастотных компонент. Основными инновациями являются: 1. **Pivotal Token Selective Attention (PTSA)**: Это механизм, который активно выделяет важные токены, уменьшая распределение внимания на ненужные представления. 2. **Multi-level Variance-aware Feed-forward Network (MVFN)**: Это сеть, способная анализировать и усиливать высокочастотные детали на разных уровнях сети, улучшая точность реконструкции. Кроме того, THAT рассматривает hyperspectral images с точки зрения спектрально-пространственного представления, что позволяет учитывать специфические признаки, такие как нелинейные зависимости и локальная схожесть. ## Результаты Исследование проводилось на нескольких стандартных бенчмарках, включая hyperspectral datasets, например, CAVE, KSC и Urban. Эксперименты показали, что THAT достигает значительного улучшения в метриках, таких как SAM (Spectral Angle Mapper) и ERGAS (Error Ratio in Spectral Domain), в сравнении с предыдущими методами. Улучшение составляло до 15% в каких-то метриках, что демонстрирует эффективность нового подхода в обработке высокочастотных деталей и уменьшении распределения внимания на ненужные токены. ## Значимость THAT может применяться в различных сферах, включая спутниковую обработку изображений, системы распознавания объектов на изображениях и машинное обучение для hyperspectral imagery. Основные преимущества включают улучшенную точность реконструкции, эффективность вычислений, и уменьшение расхода ресурсов. Этот подход может иметь потенциал для расширения возможностей в сфере hyperspectral processing, обеспечивая более точные и эффективные решения. ## Выводы Данная работа представляет собой успешный пример использования transformer-based методов для решения проблем в hyperspectral pansharpening. THAT устанавливает новый стандарт по точности и эффективности в этой области. Будущие исследования будут сконцентрированы на расширении этой модели для обработки б

Abstract

Transformer-based methods have demonstrated strong potential in hyperspectral pansharpening by modeling long-range dependencies. However, their effectiveness is often limited by redundant token representations and a lack of multi-scale feature modeling. Hyperspectral images exhibit intrinsic spectral priors (e.g., abundance sparsity) and spatial priors (e.g., non-local similarity), which are critical for accurate reconstruction. From a spectral-spatial perspective, Vision Transformers (ViTs) face two major limitations: they struggle to preserve high-frequency components--such as material edges and texture transitions--and suffer from attention dispersion across redundant tokens. These issues stem from the global self-attention mechanism, which tends to dilute high-frequency signals and overlook localized details. To address these challenges, we propose the Token-wise High-frequency Augmentation Transformer (THAT), a novel framework designed to enhance hyperspectral pansharpening through improved high-frequency feature representation and token selection. Specifically, THAT introduces: (1) Pivotal Token Selective Attention (PTSA) to prioritize informative tokens and suppress redundancy; (2) a Multi-level Variance-aware Feed-forward Network (MVFN) to enhance high-frequency detail learning. Experiments on standard benchmarks show that THAT achieves state-of-the-art performance with improved reconstruction quality and efficiency. The source code is available at https://github.com/kailuo93/THAT.

Ссылки и действия