TNet: Terrace Convolutional Decoder Network for Remote Sensing Image Semantic Segmentation

2508.04061v1 cs.CV 2025-08-09

Авторы:

Chengqian Dai, Yonghong Guo, Hongzhao Xiang, Yigui Luo

Резюме на русском

Для улучшения семантической сегментации изображений спутниковых снимков часто используются модели, основанные на архитектуре UNet, дополненных модулями для усиления взаимодействий между локальными и глобальными признаками. Однако эти модели недостаточно эффективно интегрируют глобальные контекстные зависимости на разных уровнях разрешения. Мы предлагаем TNet (Terrace Convolutional Decoder Network) — простой, но эффективный подход, основанный на классических операциях свертки и сложения. Он позволяет прогрессивно объединять признаки разных разрешений в процессе декодирования, обеспечивая специальные слои, которые естественным образом адаптируются к контексту. Мы экспериментально проверили TNet на данных ISPRS Vaihingen, ISPRS Potsdam и LoveDA, достигши средний mIoU 85.35%, 87.05% и 52.19%, сохранив высокую эффективность вычислений. Наше решение доступно в открытом доступе.

Abstract

In remote sensing, most segmentation networks adopt the UNet architecture, often incorporating modules such as Transformers or Mamba to enhance global-local feature interactions within decoder stages. However, these enhancements typically focus on intra-scale relationships and neglect the global contextual dependencies across multiple resolutions. To address this limitation, we introduce the Terrace Convolutional Decoder Network (TNet), a simple yet effective architecture that leverages only convolution and addition operations to progressively integrate low-resolution features (rich in global context) into higher-resolution features (rich in local details) across decoding stages. This progressive fusion enables the model to learn spatially-aware convolutional kernels that naturally blend global and local information in a stage-wise manner. We implement TNet with a ResNet-18 encoder (TNet-R) and evaluate it on three benchmark datasets. TNet-R achieves competitive performance with a mean Intersection-over-Union (mIoU) of 85.35\% on ISPRS Vaihingen, 87.05\% on ISPRS Potsdam, and 52.19\% on LoveDA, while maintaining high computational efficiency. Code is publicly available.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TNet: Terrace Convolutional Decoder Network for Remote Sensing Image Semantic Segmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация