VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation

2509.04669v1 cs.CV, cs.AI, cs.LG 2025-09-09

Авторы:

Mustafa Munir, Alex Zhang, Radu Marculescu

Резюме на русском

#### Контекст В последние годы видение искусственного интеллекта получило значительный толчок благодаря развитию новых моделей, таких как Vision Transformers (ViTs) и State Space Models (SSMs). Эти модели эффективно решают задачи классификации изображений, семантической сегментации и других, предлагая новые подходы к обработке изображений. Однако, несмотря на свои достижения, они имеют свои ограничения. ViTs очень хорошо справляются с глобальным контекстом, но не так эффективны в работе с локальными деталями. SSMs, такие как Mamba, эффективны для долгих последовательностей, но также страдают от недостатка в подробном локальном анализе. Одновременно, Convolutional Neural Networks (CNNs) все еще имеют выдающиеся характеристики в локальном анализе изображений, но они ограничены в создании глобального видения. Таким образом, существует потребность в создании модели, которая могла бы объединить в себе преимущества этих подходов, обеспечив более гибкую и эффективную обработку визуальных данных. #### Метод Мы предлагаем **VCMamba** — новый визуальный баккенд, который комбинирует сильные стороны CNNs и multi-directional Mamba SSMs. Модель начинается с конволюционного корня (stem), способного эффективно извлекать локальные детали. Далее, в ранних стадиях используются блоки CNN для детального изучения изображений. В поздних стадиях VCMamba использует multi-directional Mamba blocks, которые могут эффективно работать с длинными диапазонами в задачах машинного зрения. Эта двухступенчатая архитектура позволяет модели не только извлекать локальные детали, но и построить глобальное понимание изображений. Благодаря этому, VCMamba может поддерживать линейную сложность в зависимости от разрешения изображения, что является одним из ключевых преимуществ. #### Результаты Мы проверили эффективность VCMamba на двух ключевых задачах: ImageNet-1K и ADE20K. Модель VCMamba-B показала 82.6% топ-1 точность на ImageNet-1K, превосходя PlainMamba-L3 на 0.3% с 37% меньшим числом параметров. Также, VCMamba-B опередила Vision GNN-B на 0.3% с 64% меньшим числом параметров. На задаче семантической сегментации ADE20K, VCMamba-B достигла 47.1 mIoU, превысив EfficientFormer-L7 на 2.0 mIoU с 62% меньшим числом параметров. Эти результаты показывают, что VCMamba не только эффективна в локальном анализе, но и может эффективно обрабатывать глобальные зависимости в изображениях. #### Значимость VCMamba может быть применена в различных областях, где требуется высокая точность в обработке визуальных данных, таких как распознавание объектов, семантическая сегментация, и анализ видео. Она предлагает выигрыш в производи

Abstract

Recent advances in Vision Transformers (ViTs) and State Space Models (SSMs) have challenged the dominance of Convolutional Neural Networks (CNNs) in computer vision. ViTs excel at capturing global context, and SSMs like Mamba offer linear complexity for long sequences, yet they do not capture fine-grained local features as effectively as CNNs. Conversely, CNNs possess strong inductive biases for local features but lack the global reasoning capabilities of transformers and Mamba. To bridge this gap, we introduce \textit{VCMamba}, a novel vision backbone that integrates the strengths of CNNs and multi-directional Mamba SSMs. VCMamba employs a convolutional stem and a hierarchical structure with convolutional blocks in its early stages to extract rich local features. These convolutional blocks are then processed by later stages incorporating multi-directional Mamba blocks designed to efficiently model long-range dependencies and global context. This hybrid design allows for superior feature representation while maintaining linear complexity with respect to image resolution. We demonstrate VCMamba's effectiveness through extensive experiments on ImageNet-1K classification and ADE20K semantic segmentation. Our VCMamba-B achieves 82.6% top-1 accuracy on ImageNet-1K, surpassing PlainMamba-L3 by 0.3% with 37% fewer parameters, and outperforming Vision GNN-B by 0.3% with 64% fewer parameters. Furthermore, VCMamba-B obtains 47.1 mIoU on ADE20K, exceeding EfficientFormer-L7 by 2.0 mIoU while utilizing 62% fewer parameters. Code is available at https://github.com/Wertyuui345/VCMamba.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация