COXNet: Cross-Layer Fusion with Adaptive Alignment and Scale Integration for RGBT Tiny Object Detection

2508.09533v1 cs.CV, cs.AI 2025-08-15
Авторы:

Peiran Peng, Tingfa Xu, Liqiang Song, Mengqi Zhu, Yuqiang Fang, Jianan Li

Резюме на русском

#### Контекст Обнаружение малых объектов в мультимодальной RGBT (Red-Green-Blue-Thermal) изображении является ключевым заданием в области компьютерного зрения, особенно в таких сферах, как наблюдение за объектами, поиск и спасение людей, а также автономное вождение. Эта проблема становится более сложной при использовании дронов, которые могут перемещаться в нестабильных условиях, включая ситуации с низким освещением, затенением и загроможденными фонами. Несмотря на прогрессы в области мультимодального обнаружения, существующие методы сталкиваются с трудностями при объединении информации из видимой и термической модальностей. Именно этот аспект и является мотивацией для разработки нового подхода, названного COXNet. #### Метод COXNet представляет собой сложную архитектуру, основанную на трех основных компонентах. Во-первых, **Cross-Layer Fusion Module** объединяет высокоуровневые (semantic) черты, извлеченные из видимой спектральной модальности, с низкоуровневыми (spatial) чертами, извлеченными из термической модальности. Это позволяет улучшить точность определения и семантическую подробность. Во-вторых, **Dynamic Alignment and Scale Refinement Module** адаптивно корректирует переносы между модальностями и сохраняет ключевые масштабы фичи, специфичные для каждой модальности. В-третьих, **GeoShape Similarity Measure** улучшает стратегию распознавания изображений, уменьшая ошибки локализации. Эти модули комбинируются в интегрированной системе, способной эффективно обрабатывать сложные сцены. #### Результаты Для оценки эффективности COXNet проводились эксперименты на датасете RGBTDronePerson. Метод COXNet показал оптимальные результаты, улучшив метрику mAP$_{50}$ на 3.32% по сравнению с другими современными методами. Эксперименты также подтвердили высокую точность в определении малых объектов, даже при наличии затруднений, таких как низкое освещение, закрытие и фоновые помехи. Эти результаты демонстрируют совершенство COXNet в области RGBT-обнаружения в условиях воздушного территориального наблюдения. #### Значимость Разработанный подход COXNet имеет широкое применение в сферах, требующих высокой точности в определении малых объектов. Он может быть использован в системах наблюдения, поисковых операциях, а также в мониторинге воздушных территорий. Основное преимущество COXNet заключается в его уникальной архитектуре, которая способна эффективно объединять информацию из разных модальностей. Это не только повышает точность, но и улучшает устойчивость к различным внешним факторам. #### Выводы Результаты исследований подтвердили высокую эффективность COXNet в задаче R

Abstract

Detecting tiny objects in multimodal Red-Green-Blue-Thermal (RGBT) imagery is a critical challenge in computer vision, particularly in surveillance, search and rescue, and autonomous navigation. Drone-based scenarios exacerbate these challenges due to spatial misalignment, low-light conditions, occlusion, and cluttered backgrounds. Current methods struggle to leverage the complementary information between visible and thermal modalities effectively. We propose COXNet, a novel framework for RGBT tiny object detection, addressing these issues through three core innovations: i) the Cross-Layer Fusion Module, fusing high-level visible and low-level thermal features for enhanced semantic and spatial accuracy; ii) the Dynamic Alignment and Scale Refinement module, correcting cross-modal spatial misalignments and preserving multi-scale features; and iii) an optimized label assignment strategy using the GeoShape Similarity Measure for better localization. COXNet achieves a 3.32\% mAP$_{50}$ improvement on the RGBTDronePerson dataset over state-of-the-art methods, demonstrating its effectiveness for robust detection in complex environments.

Ссылки и действия