COXNet: Cross-Layer Fusion with Adaptive Alignment and Scale Integration for RGBT Tiny Object Detection
2508.09533v1
cs.CV, cs.AI
2025-08-15
Авторы:
Peiran Peng, Tingfa Xu, Liqiang Song, Mengqi Zhu, Yuqiang Fang, Jianan Li
Резюме на русском
#### Контекст
Обнаружение малых объектов в мультимодальной RGBT (Red-Green-Blue-Thermal) изображении является ключевым заданием в области компьютерного зрения, особенно в таких сферах, как наблюдение за объектами, поиск и спасение людей, а также автономное вождение. Эта проблема становится более сложной при использовании дронов, которые могут перемещаться в нестабильных условиях, включая ситуации с низким освещением, затенением и загроможденными фонами. Несмотря на прогрессы в области мультимодального обнаружения, существующие методы сталкиваются с трудностями при объединении информации из видимой и термической модальностей. Именно этот аспект и является мотивацией для разработки нового подхода, названного COXNet.
#### Метод
COXNet представляет собой сложную архитектуру, основанную на трех основных компонентах. Во-первых, **Cross-Layer Fusion Module** объединяет высокоуровневые (semantic) черты, извлеченные из видимой спектральной модальности, с низкоуровневыми (spatial) чертами, извлеченными из термической модальности. Это позволяет улучшить точность определения и семантическую подробность. Во-вторых, **Dynamic Alignment and Scale Refinement Module** адаптивно корректирует переносы между модальностями и сохраняет ключевые масштабы фичи, специфичные для каждой модальности. В-третьих, **GeoShape Similarity Measure** улучшает стратегию распознавания изображений, уменьшая ошибки локализации. Эти модули комбинируются в интегрированной системе, способной эффективно обрабатывать сложные сцены.
#### Результаты
Для оценки эффективности COXNet проводились эксперименты на датасете RGBTDronePerson. Метод COXNet показал оптимальные результаты, улучшив метрику mAP$_{50}$ на 3.32% по сравнению с другими современными методами. Эксперименты также подтвердили высокую точность в определении малых объектов, даже при наличии затруднений, таких как низкое освещение, закрытие и фоновые помехи. Эти результаты демонстрируют совершенство COXNet в области RGBT-обнаружения в условиях воздушного территориального наблюдения.
#### Значимость
Разработанный подход COXNet имеет широкое применение в сферах, требующих высокой точности в определении малых объектов. Он может быть использован в системах наблюдения, поисковых операциях, а также в мониторинге воздушных территорий. Основное преимущество COXNet заключается в его уникальной архитектуре, которая способна эффективно объединять информацию из разных модальностей. Это не только повышает точность, но и улучшает устойчивость к различным внешним факторам.
#### Выводы
Результаты исследований подтвердили высокую эффективность COXNet в задаче R
Abstract
Detecting tiny objects in multimodal Red-Green-Blue-Thermal (RGBT) imagery is
a critical challenge in computer vision, particularly in surveillance, search
and rescue, and autonomous navigation. Drone-based scenarios exacerbate these
challenges due to spatial misalignment, low-light conditions, occlusion, and
cluttered backgrounds. Current methods struggle to leverage the complementary
information between visible and thermal modalities effectively. We propose
COXNet, a novel framework for RGBT tiny object detection, addressing these
issues through three core innovations: i) the Cross-Layer Fusion Module, fusing
high-level visible and low-level thermal features for enhanced semantic and
spatial accuracy; ii) the Dynamic Alignment and Scale Refinement module,
correcting cross-modal spatial misalignments and preserving multi-scale
features; and iii) an optimized label assignment strategy using the GeoShape
Similarity Measure for better localization. COXNet achieves a 3.32\% mAP$_{50}$
improvement on the RGBTDronePerson dataset over state-of-the-art methods,
demonstrating its effectiveness for robust detection in complex environments.
Ссылки и действия
Дополнительные ресурсы: