eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing
2508.10370v1
cs.LG, cs.AI
2025-08-16
Авторы:
Jiyong Kim, Jaeho Lee, Jiahao Lin, Alish Kanani, Miao Sun, Umit Y. Ogras, Jaehyun Park
Резюме на русском
## Контекст
Современные машинное обучение и глубокие нейронные сети получили широкое распространение за счет высокой точности решения различных задач, включая задачи работы с последовательными данными. Однако, применение таких моделей в реальном времени на ресурс-ограниченных устройствах, таких как экраны и мобильные телефоны, ограничено из-за высокого вычислительного возраста и большого объема данных. Недавно развиваются архитектуры State Space Models (SSM), предлагающие более эффективные алгоритмы для обработки последовательных данных. Одной из таких моделей является Mamba, которая обеспечивает высокую точность с меньшими вычислительными затратами по сравнению с современными моделями типа Transformer. Несмотря на эти преимущества, существуют нетрадиционные hardware acceleration frameworks, оптимизированные для развертывания Mamba в ресурс-ограниченных средах, что становится ключевым мотивом для разработки eMamba.
## Метод
eMamba представляет собой комплексный фреймворк для оптимизации Mamba-моделей на экранных устройствах. Он решает проблему высокого вычислительного возраста, заменив тяжелые нормализационные слои на легкие альтернативы, ориентированные на железо. Для оптимизации дорогостоящих операций, таких как SiLU-активация и экспоненциальные функции, eMamba применяет приближения, адаптированные к специфике приложений. Для того, чтобы добиться максимальной эффективности, eMamba использует Approximation-Aware Neural Architecture Search (AANAS) для приближения и адаптирования нейросетевых моделей. Этот подход позволяет тюнить модели, учитывая ограничения ресурсов, и повышать точность и производительность.
## Результаты
eMamba проверен на трех датасетах: Fashion-MNIST, CIFAR-10 и MARS (открытая трассировка по локализации поз). Он достиг той же точности, что и современные модели, но с 1.63-19.9 раз меньшим числом параметров. Также eMamba продемонстрировал устойчивость к задачам с текстовыми данными, показав стабильную perplexity на WikiText2 датасете при различных длинах последовательностей. Также была произведена оптимизация eMamba на FPGA (AMD ZCU102) и ASIC с использованием технологии GF 22 nm. Эксперименты показали значительные повышения производительности и энергоэффективности: от 4.95-5.62 раз меньшей задержки, от 2.22-9.95 раз вышей пропускной способности и 4.77 раз меньшего объема с 9.84 раз меньшим энергопотреблением по сравнению с базовыми решениями.
## Значимость
eMamba имеет широкое применение в ресурс-ограниченных средах, таких как мобильные устройства и IoT-устройства. Его особенностью является увеличение эффективности и снижение потребления энергии, что делает его привлекательным для приложений в реальном времени, таких как потоковое
Abstract
State Space Model (SSM)-based machine learning architectures have recently
gained significant attention for processing sequential data. Mamba, a recent
sequence-to-sequence SSM, offers competitive accuracy with superior
computational efficiency compared to state-of-the-art transformer models. While
this advantage makes Mamba particularly promising for resource-constrained edge
devices, no hardware acceleration frameworks are currently optimized for
deploying it in such environments. This paper presents eMamba, a comprehensive
end-to-end hardware acceleration framework explicitly designed for deploying
Mamba models on edge platforms. eMamba maximizes computational efficiency by
replacing complex normalization layers with lightweight hardware-aware
alternatives and approximating expensive operations, such as SiLU activation
and exponentiation, considering the target applications. Then, it performs an
approximation-aware neural architecture search (NAS) to tune the learnable
parameters used during approximation. Evaluations with Fashion-MNIST, CIFAR-10,
and MARS, an open-source human pose estimation dataset, show eMamba achieves
comparable accuracy to state-of-the-art techniques using 1.63-19.9$\times$
fewer parameters. In addition, it generalizes well to large-scale natural
language tasks, demonstrating stable perplexity across varying sequence lengths
on the WikiText2 dataset. We also quantize and implement the entire eMamba
pipeline on an AMD ZCU102 FPGA and ASIC using GlobalFoundries (GF) 22 nm
technology. Experimental results show 4.95-5.62$\times$ lower latency and
2.22-9.95$\times$ higher throughput, with 4.77$\times$ smaller area,
9.84$\times$ lower power, and 48.6$\times$ lower energy consumption than
baseline solutions while maintaining competitive accuracy.
Ссылки и действия
Дополнительные ресурсы: