DyCAF-Net: Dynamic Class-Aware Fusion Network
2508.03598v1
cs.CV, cs.LG
2025-08-09
Авторы:
Md Abrar Jahin, Shahriar Soudeep, M. F. Mridha, Nafiz Fahad, Md. Jakir Hossen
Резюме на русском
Объектная детекция в динамических сценах сталкивается с проблемами, такими как наложение, классовое неравенство и ограниченная работа стивидирующих механизмов. Мы предлагаем Dynamic Class-Aware Fusion Network (DyCAF-Net), решающую эти задачи с помощью трех ключевых инноваций. Во-первых, используется устойчивый к входным данным механизм равновесия для итеративного улучшения мультискайловых признаков. Во-вторых, динамическая дважды динамическая аттенция адаптирует каналы и пространственные ответы к входным данным и классам. В-третьих, классно-ориентированная модификация признаков повышает признаки для редких классов. Наши эксперименты показали, что DyCAF-Net выдает значительные повышения в точности, mAP@50 и mAP@50-95 на 13 различных датасетах, включая сцены с ограниченной видимостью и длинной хвостовой частью. Имея эффективные тепловую модель, DyCAF-Net является универсальным решением для задач детекции в реальном мире, например, в медицинской имеджинге, системах безопасности и автономных системах.
Abstract
Recent advancements in object detection rely on modular architectures with
multi-scale fusion and attention mechanisms. However, static fusion heuristics
and class-agnostic attention limit performance in dynamic scenes with
occlusions, clutter, and class imbalance. We introduce Dynamic Class-Aware
Fusion Network (DyCAF-Net) that addresses these challenges through three
innovations: (1) an input-conditioned equilibrium-based neck that iteratively
refines multi-scale features via implicit fixed-point modeling, (2) a dual
dynamic attention mechanism that adaptively recalibrates channel and spatial
responses using input- and class-dependent cues, and (3) class-aware feature
adaptation that modulates features to prioritize discriminative regions for
rare classes. Through comprehensive ablation studies with YOLOv8 and related
architectures, alongside benchmarking against nine state-of-the-art baselines,
DyCAF-Net achieves significant improvements in precision, mAP@50, and mAP@50-95
across 13 diverse benchmarks, including occlusion-heavy and long-tailed
datasets. The framework maintains computational efficiency ($\sim$11.1M
parameters) and competitive inference speeds, while its adaptability to scale
variance, semantic overlaps, and class imbalance positions it as a robust
solution for real-world detection tasks in medical imaging, surveillance, and
autonomous systems.
Ссылки и действия
Дополнительные ресурсы: