Characterizing the Behavior of Training Mamba-based State Space Models on GPUs

2508.17679v1 cs.LG, cs.AR, cs.CL 2025-08-27
Авторы:

Trinayan Baruah, Kaustubh Shivdikar, Sara Prescott, David Kaeli

Резюме на русском

#### Контекст Современные трансформеры, основанные на моделях самоповторяющегося внимания (self-attention), доказали свою эффективность в задачах обработки текстов, звука и видео. Однако, их вычислительная сложность, пропорциональная квадрату длины входного последовательности, остается значительной проблемой при масштабировании. Альтернативным подходом являются State Space Models (SSM), которые снижают вычислительную сложность за счет использования различных архитектур, адаптированных для различных областей применения, таких как видео, текст и графы. Одним из таких SSM является Mamba, предлагающий простой и эффективный подход к решению задач связанных с последовательностями. Изучение поведения таких моделей во время обучения на GPU и их микроархитектурных потребностей является ключевым для оптимизации и масштабирования их производительности. #### Метод Мы разработали систему для эмуляции и анализа поведения моделей Mamba-based SSM во время обучения на GPU. Для этого была создана универсальная система, включающую различные архитектуры Mamba-based SSM, представляющие разные виды задач. Каждая модель была запущена в окружении с разными наборами параметров, такими как длина последовательности, размер батча и количество слоев. Мы анализировали различные аспекты производительности, включая использование памяти, частоту процессора, а также микроархитектурные оптимизации, влияющие на эффективность обучения. Это позволило нам получить подробные показатели для каждого этапа обучения и понять, какие микроархитектурные факторы влияют на производительность. #### Результаты Наши эксперименты показали, что Mamba-based SSM имеют значительно более низкую вычислительную сложность по сравнению с трансформерами, особенно при больших длинах последовательностей. Мы обнаружили, что оптимизации, такие как уменьшение числа операций свертки (convolutions) и использование эффективных методов памяти, сильно повышают производительность. Также были выявлены некоторые ограничения в GPU-реализациях, включая неоптимальные использования кэша и неэффективность в распараллеливании, что может стать препятствием для масштабирования. Мы также показали, что динамические сетки (dynamic graphs), используемые Mamba, могут устранить некоторые из этих проблем, улучшив использование ресурсов GPU. #### Значимость Результаты нашего исследования имеют высокую значимость для области машинного обучения и GPU-архитектур. Модели Mamba-based SSM предлагают более эффективный способ решения задач, связанных с последовательностями, чем трансформеры, что может привести к снижению расходов на вычисления и энер

Abstract

Mamba-based State Space Models (SSM) have emerged as a promising alternative to the ubiquitous transformers. Despite the expressive power of transformers, the quadratic complexity of computing attention is a major impediment to scaling performance as we increase the sequence length. SSMs provide an alternative path that addresses this problem, reducing the computational complexity requirements of self-attention with novel model architectures for different domains and fields such as video, text generation and graphs. Thus, it is important to characterize the behavior of these emerging workloads on GPUs and understand their requirements during GPU microarchitectural design. In this work we evaluate Mamba-based SSMs and characterize their behavior during training on GPUs. We construct a workload suite that offers representative models that span different model architectures. We then use this suite to analyze the architectural implications of running Mamba-based SSMs on GPUs. Our work sheds new light on potential optimizations to continue scaling the performance for such models.

Ссылки и действия