Evaluation and Analysis of Deep Neural Transformers and Convolutional Neural Networks on Modern Remote Sensing Datasets
2508.02871v1
cs.CV, cs.AI, cs.LG
2025-08-09
Авторы:
J. Alex Hurt, Trevor M. Bajkowski, Grant J. Scott, Curt H. Davis
Резюме на русском
Мы исследовали производительность трансформеров и современных сверточных сетей (DCNN) на современных данных ремутного зрения (remote sensing). Несмотря на то, что DCNNs стали стандартом в обработке изображений, в том числе ремутного зрения, появление трансформеров позволило наблюдать второй скачок в развитии компьютерного зрения. Однако их производительность на больших данных ремутного зрения еще не до конца изучена. Мы сравнили 11 моделей детектирования объектов, включая 5 трансформеров и 6 DCNNs, на трех больших датасетах ремутного зрения. Наши результаты показали, что трансформеры показывают статус-кво в задаче детектирования объектов на сложных данных ремутного зрения, превосходя DCNNs в разных аспектах. Этот результат подкрепляет роль трансформеров в новых технологиях для обработки изображений.
Abstract
In 2012, AlexNet established deep convolutional neural networks (DCNNs) as
the state-of-the-art in CV, as these networks soon led in visual tasks for many
domains, including remote sensing. With the publication of Visual Transformers,
we are witnessing the second modern leap in computational vision, and as such,
it is imperative to understand how various transformer-based neural networks
perform on satellite imagery. While transformers have shown high levels of
performance in natural language processing and CV applications, they have yet
to be compared on a large scale to modern remote sensing data. In this paper,
we explore the use of transformer-based neural networks for object detection in
high-resolution electro-optical satellite imagery, demonstrating
state-of-the-art performance on a variety of publicly available benchmark data
sets. We compare eleven distinct bounding-box detection and localization
algorithms in this study, of which seven were published since 2020, and all
eleven since 2015. The performance of five transformer-based architectures is
compared with six convolutional networks on three state-of-the-art opensource
high-resolution remote sensing imagery datasets ranging in size and complexity.
Following the training and evaluation of thirty-three deep neural models, we
then discuss and analyze model performance across various feature extraction
methodologies and detection algorithms.
Ссылки и действия
Дополнительные ресурсы: