eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing

2508.10370v1 cs.LG, cs.AI 2025-08-16
Авторы:

Jiyong Kim, Jaeho Lee, Jiahao Lin, Alish Kanani, Miao Sun, Umit Y. Ogras, Jaehyun Park

Резюме на русском

## Контекст Современные машинное обучение и глубокие нейронные сети получили широкое распространение за счет высокой точности решения различных задач, включая задачи работы с последовательными данными. Однако, применение таких моделей в реальном времени на ресурс-ограниченных устройствах, таких как экраны и мобильные телефоны, ограничено из-за высокого вычислительного возраста и большого объема данных. Недавно развиваются архитектуры State Space Models (SSM), предлагающие более эффективные алгоритмы для обработки последовательных данных. Одной из таких моделей является Mamba, которая обеспечивает высокую точность с меньшими вычислительными затратами по сравнению с современными моделями типа Transformer. Несмотря на эти преимущества, существуют нетрадиционные hardware acceleration frameworks, оптимизированные для развертывания Mamba в ресурс-ограниченных средах, что становится ключевым мотивом для разработки eMamba. ## Метод eMamba представляет собой комплексный фреймворк для оптимизации Mamba-моделей на экранных устройствах. Он решает проблему высокого вычислительного возраста, заменив тяжелые нормализационные слои на легкие альтернативы, ориентированные на железо. Для оптимизации дорогостоящих операций, таких как SiLU-активация и экспоненциальные функции, eMamba применяет приближения, адаптированные к специфике приложений. Для того, чтобы добиться максимальной эффективности, eMamba использует Approximation-Aware Neural Architecture Search (AANAS) для приближения и адаптирования нейросетевых моделей. Этот подход позволяет тюнить модели, учитывая ограничения ресурсов, и повышать точность и производительность. ## Результаты eMamba проверен на трех датасетах: Fashion-MNIST, CIFAR-10 и MARS (открытая трассировка по локализации поз). Он достиг той же точности, что и современные модели, но с 1.63-19.9 раз меньшим числом параметров. Также eMamba продемонстрировал устойчивость к задачам с текстовыми данными, показав стабильную perplexity на WikiText2 датасете при различных длинах последовательностей. Также была произведена оптимизация eMamba на FPGA (AMD ZCU102) и ASIC с использованием технологии GF 22 nm. Эксперименты показали значительные повышения производительности и энергоэффективности: от 4.95-5.62 раз меньшей задержки, от 2.22-9.95 раз вышей пропускной способности и 4.77 раз меньшего объема с 9.84 раз меньшим энергопотреблением по сравнению с базовыми решениями. ## Значимость eMamba имеет широкое применение в ресурс-ограниченных средах, таких как мобильные устройства и IoT-устройства. Его особенностью является увеличение эффективности и снижение потребления энергии, что делает его привлекательным для приложений в реальном времени, таких как потоковое

Abstract

State Space Model (SSM)-based machine learning architectures have recently gained significant attention for processing sequential data. Mamba, a recent sequence-to-sequence SSM, offers competitive accuracy with superior computational efficiency compared to state-of-the-art transformer models. While this advantage makes Mamba particularly promising for resource-constrained edge devices, no hardware acceleration frameworks are currently optimized for deploying it in such environments. This paper presents eMamba, a comprehensive end-to-end hardware acceleration framework explicitly designed for deploying Mamba models on edge platforms. eMamba maximizes computational efficiency by replacing complex normalization layers with lightweight hardware-aware alternatives and approximating expensive operations, such as SiLU activation and exponentiation, considering the target applications. Then, it performs an approximation-aware neural architecture search (NAS) to tune the learnable parameters used during approximation. Evaluations with Fashion-MNIST, CIFAR-10, and MARS, an open-source human pose estimation dataset, show eMamba achieves comparable accuracy to state-of-the-art techniques using 1.63-19.9$\times$ fewer parameters. In addition, it generalizes well to large-scale natural language tasks, demonstrating stable perplexity across varying sequence lengths on the WikiText2 dataset. We also quantize and implement the entire eMamba pipeline on an AMD ZCU102 FPGA and ASIC using GlobalFoundries (GF) 22 nm technology. Experimental results show 4.95-5.62$\times$ lower latency and 2.22-9.95$\times$ higher throughput, with 4.77$\times$ smaller area, 9.84$\times$ lower power, and 48.6$\times$ lower energy consumption than baseline solutions while maintaining competitive accuracy.

Ссылки и действия