TNet: Terrace Convolutional Decoder Network for Remote Sensing Image Semantic Segmentation
2508.04061v1
cs.CV
2025-08-09
Авторы:
Chengqian Dai, Yonghong Guo, Hongzhao Xiang, Yigui Luo
Резюме на русском
Для улучшения семантической сегментации изображений спутниковых снимков часто используются модели, основанные на архитектуре UNet, дополненных модулями для усиления взаимодействий между локальными и глобальными признаками. Однако эти модели недостаточно эффективно интегрируют глобальные контекстные зависимости на разных уровнях разрешения. Мы предлагаем TNet (Terrace Convolutional Decoder Network) — простой, но эффективный подход, основанный на классических операциях свертки и сложения. Он позволяет прогрессивно объединять признаки разных разрешений в процессе декодирования, обеспечивая специальные слои, которые естественным образом адаптируются к контексту. Мы экспериментально проверили TNet на данных ISPRS Vaihingen, ISPRS Potsdam и LoveDA, достигши средний mIoU 85.35%, 87.05% и 52.19%, сохранив высокую эффективность вычислений. Наше решение доступно в открытом доступе.
Abstract
In remote sensing, most segmentation networks adopt the UNet architecture,
often incorporating modules such as Transformers or Mamba to enhance
global-local feature interactions within decoder stages. However, these
enhancements typically focus on intra-scale relationships and neglect the
global contextual dependencies across multiple resolutions. To address this
limitation, we introduce the Terrace Convolutional Decoder Network (TNet), a
simple yet effective architecture that leverages only convolution and addition
operations to progressively integrate low-resolution features (rich in global
context) into higher-resolution features (rich in local details) across
decoding stages. This progressive fusion enables the model to learn
spatially-aware convolutional kernels that naturally blend global and local
information in a stage-wise manner. We implement TNet with a ResNet-18 encoder
(TNet-R) and evaluate it on three benchmark datasets. TNet-R achieves
competitive performance with a mean Intersection-over-Union (mIoU) of 85.35\%
on ISPRS Vaihingen, 87.05\% on ISPRS Potsdam, and 52.19\% on LoveDA, while
maintaining high computational efficiency. Code is publicly available.
Ссылки и действия
Дополнительные ресурсы: