VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation
2509.04669v1
cs.CV, cs.AI, cs.LG
2025-09-09
Авторы:
Mustafa Munir, Alex Zhang, Radu Marculescu
Резюме на русском
#### Контекст
В последние годы видение искусственного интеллекта получило значительный толчок благодаря развитию новых моделей, таких как Vision Transformers (ViTs) и State Space Models (SSMs). Эти модели эффективно решают задачи классификации изображений, семантической сегментации и других, предлагая новые подходы к обработке изображений. Однако, несмотря на свои достижения, они имеют свои ограничения. ViTs очень хорошо справляются с глобальным контекстом, но не так эффективны в работе с локальными деталями. SSMs, такие как Mamba, эффективны для долгих последовательностей, но также страдают от недостатка в подробном локальном анализе. Одновременно, Convolutional Neural Networks (CNNs) все еще имеют выдающиеся характеристики в локальном анализе изображений, но они ограничены в создании глобального видения. Таким образом, существует потребность в создании модели, которая могла бы объединить в себе преимущества этих подходов, обеспечив более гибкую и эффективную обработку визуальных данных.
#### Метод
Мы предлагаем **VCMamba** — новый визуальный баккенд, который комбинирует сильные стороны CNNs и multi-directional Mamba SSMs. Модель начинается с конволюционного корня (stem), способного эффективно извлекать локальные детали. Далее, в ранних стадиях используются блоки CNN для детального изучения изображений. В поздних стадиях VCMamba использует multi-directional Mamba blocks, которые могут эффективно работать с длинными диапазонами в задачах машинного зрения. Эта двухступенчатая архитектура позволяет модели не только извлекать локальные детали, но и построить глобальное понимание изображений. Благодаря этому, VCMamba может поддерживать линейную сложность в зависимости от разрешения изображения, что является одним из ключевых преимуществ.
#### Результаты
Мы проверили эффективность VCMamba на двух ключевых задачах: ImageNet-1K и ADE20K. Модель VCMamba-B показала 82.6% топ-1 точность на ImageNet-1K, превосходя PlainMamba-L3 на 0.3% с 37% меньшим числом параметров. Также, VCMamba-B опередила Vision GNN-B на 0.3% с 64% меньшим числом параметров. На задаче семантической сегментации ADE20K, VCMamba-B достигла 47.1 mIoU, превысив EfficientFormer-L7 на 2.0 mIoU с 62% меньшим числом параметров. Эти результаты показывают, что VCMamba не только эффективна в локальном анализе, но и может эффективно обрабатывать глобальные зависимости в изображениях.
#### Значимость
VCMamba может быть применена в различных областях, где требуется высокая точность в обработке визуальных данных, таких как распознавание объектов, семантическая сегментация, и анализ видео. Она предлагает выигрыш в производи
Abstract
Recent advances in Vision Transformers (ViTs) and State Space Models (SSMs)
have challenged the dominance of Convolutional Neural Networks (CNNs) in
computer vision. ViTs excel at capturing global context, and SSMs like Mamba
offer linear complexity for long sequences, yet they do not capture
fine-grained local features as effectively as CNNs. Conversely, CNNs possess
strong inductive biases for local features but lack the global reasoning
capabilities of transformers and Mamba. To bridge this gap, we introduce
\textit{VCMamba}, a novel vision backbone that integrates the strengths of CNNs
and multi-directional Mamba SSMs. VCMamba employs a convolutional stem and a
hierarchical structure with convolutional blocks in its early stages to extract
rich local features. These convolutional blocks are then processed by later
stages incorporating multi-directional Mamba blocks designed to efficiently
model long-range dependencies and global context. This hybrid design allows for
superior feature representation while maintaining linear complexity with
respect to image resolution. We demonstrate VCMamba's effectiveness through
extensive experiments on ImageNet-1K classification and ADE20K semantic
segmentation. Our VCMamba-B achieves 82.6% top-1 accuracy on ImageNet-1K,
surpassing PlainMamba-L3 by 0.3% with 37% fewer parameters, and outperforming
Vision GNN-B by 0.3% with 64% fewer parameters. Furthermore, VCMamba-B obtains
47.1 mIoU on ADE20K, exceeding EfficientFormer-L7 by 2.0 mIoU while utilizing
62% fewer parameters. Code is available at
https://github.com/Wertyuui345/VCMamba.
Ссылки и действия
Дополнительные ресурсы: