Dual-Stream Attention with Multi-Modal Queries for Object Detection in Transportation Applications
2508.04868v1
cs.CV
2025-08-09
Авторы:
Noreen Anwar, Guillaume-Alexandre Bilodeau, Wassim Bouachir
Резюме на русском
**Резюме**
Transformer-based объектные детекторы часто сталкиваются с проблемами, такими как плохая локализация, скрытость объектов и высокая сложность вычислений из-за фиксированных запросов и плотной аттенции. В статье предлагается **DAMM (Dual-stream Attention with Multi-Modal queries)**, новая модель, которая улучшает точность и эффективность детекторов. Она использует три типа запросов: визуальные запросы из vision-language моделей, позиционные запросы с polygonal embeddings и случайные учитываемые запросы для общего покрытия сцены. Для тонкой локализации в ограниченных областях введен дважды кросс-аттенционный модуль, отделяющий финальные семантические и пространственные признаки. Эксперименты показали, что DAMM достигает нового состояния искусства по метрикам Average Precision (AP) и Recall на 4 бенчмарках. Результаты подтверждают эффективность multi-modal query adaptation и dual-stream attention в решении проблем объектного детектирования в сложных сценах. Исходный код доступен на GitHub: \href{https://github.com/DET-LIP/DAMM}{DAMM}.
Abstract
Transformer-based object detectors often struggle with occlusions,
fine-grained localization, and computational inefficiency caused by fixed
queries and dense attention. We propose DAMM, Dual-stream Attention with
Multi-Modal queries, a novel framework introducing both query adaptation and
structured cross-attention for improved accuracy and efficiency. DAMM
capitalizes on three types of queries: appearance-based queries from
vision-language models, positional queries using polygonal embeddings, and
random learned queries for general scene coverage. Furthermore, a dual-stream
cross-attention module separately refines semantic and spatial features,
boosting localization precision in cluttered scenes. We evaluated DAMM on four
challenging benchmarks, and it achieved state-of-the-art performance in average
precision (AP) and recall, demonstrating the effectiveness of multi-modal query
adaptation and dual-stream attention. Source code is at:
\href{https://github.com/DET-LIP/DAMM}{GitHub}.
Ссылки и действия
Дополнительные ресурсы: