Dual-Stream Attention with Multi-Modal Queries for Object Detection in Transportation Applications

2508.04868v1 cs.CV 2025-08-09

Авторы:

Noreen Anwar, Guillaume-Alexandre Bilodeau, Wassim Bouachir

Резюме на русском

**Резюме** Transformer-based объектные детекторы часто сталкиваются с проблемами, такими как плохая локализация, скрытость объектов и высокая сложность вычислений из-за фиксированных запросов и плотной аттенции. В статье предлагается **DAMM (Dual-stream Attention with Multi-Modal queries)**, новая модель, которая улучшает точность и эффективность детекторов. Она использует три типа запросов: визуальные запросы из vision-language моделей, позиционные запросы с polygonal embeddings и случайные учитываемые запросы для общего покрытия сцены. Для тонкой локализации в ограниченных областях введен дважды кросс-аттенционный модуль, отделяющий финальные семантические и пространственные признаки. Эксперименты показали, что DAMM достигает нового состояния искусства по метрикам Average Precision (AP) и Recall на 4 бенчмарках. Результаты подтверждают эффективность multi-modal query adaptation и dual-stream attention в решении проблем объектного детектирования в сложных сценах. Исходный код доступен на GitHub: \href{https://github.com/DET-LIP/DAMM}{DAMM}.

Abstract

Transformer-based object detectors often struggle with occlusions, fine-grained localization, and computational inefficiency caused by fixed queries and dense attention. We propose DAMM, Dual-stream Attention with Multi-Modal queries, a novel framework introducing both query adaptation and structured cross-attention for improved accuracy and efficiency. DAMM capitalizes on three types of queries: appearance-based queries from vision-language models, positional queries using polygonal embeddings, and random learned queries for general scene coverage. Furthermore, a dual-stream cross-attention module separately refines semantic and spatial features, boosting localization precision in cluttered scenes. We evaluated DAMM on four challenging benchmarks, and it achieved state-of-the-art performance in average precision (AP) and recall, demonstrating the effectiveness of multi-modal query adaptation and dual-stream attention. Source code is at: \href{https://github.com/DET-LIP/DAMM}{GitHub}.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dual-Stream Attention with Multi-Modal Queries for Object Detection in Transportation Applications

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация