Characterizing the Behavior of Training Mamba-based State Space Models on GPUs
2508.17679v1
cs.LG, cs.AR, cs.CL
2025-08-27
Авторы:
Trinayan Baruah, Kaustubh Shivdikar, Sara Prescott, David Kaeli
Резюме на русском
#### Контекст
Современные трансформеры, основанные на моделях самоповторяющегося внимания (self-attention), доказали свою эффективность в задачах обработки текстов, звука и видео. Однако, их вычислительная сложность, пропорциональная квадрату длины входного последовательности, остается значительной проблемой при масштабировании. Альтернативным подходом являются State Space Models (SSM), которые снижают вычислительную сложность за счет использования различных архитектур, адаптированных для различных областей применения, таких как видео, текст и графы. Одним из таких SSM является Mamba, предлагающий простой и эффективный подход к решению задач связанных с последовательностями. Изучение поведения таких моделей во время обучения на GPU и их микроархитектурных потребностей является ключевым для оптимизации и масштабирования их производительности.
#### Метод
Мы разработали систему для эмуляции и анализа поведения моделей Mamba-based SSM во время обучения на GPU. Для этого была создана универсальная система, включающую различные архитектуры Mamba-based SSM, представляющие разные виды задач. Каждая модель была запущена в окружении с разными наборами параметров, такими как длина последовательности, размер батча и количество слоев. Мы анализировали различные аспекты производительности, включая использование памяти, частоту процессора, а также микроархитектурные оптимизации, влияющие на эффективность обучения. Это позволило нам получить подробные показатели для каждого этапа обучения и понять, какие микроархитектурные факторы влияют на производительность.
#### Результаты
Наши эксперименты показали, что Mamba-based SSM имеют значительно более низкую вычислительную сложность по сравнению с трансформерами, особенно при больших длинах последовательностей. Мы обнаружили, что оптимизации, такие как уменьшение числа операций свертки (convolutions) и использование эффективных методов памяти, сильно повышают производительность. Также были выявлены некоторые ограничения в GPU-реализациях, включая неоптимальные использования кэша и неэффективность в распараллеливании, что может стать препятствием для масштабирования. Мы также показали, что динамические сетки (dynamic graphs), используемые Mamba, могут устранить некоторые из этих проблем, улучшив использование ресурсов GPU.
#### Значимость
Результаты нашего исследования имеют высокую значимость для области машинного обучения и GPU-архитектур. Модели Mamba-based SSM предлагают более эффективный способ решения задач, связанных с последовательностями, чем трансформеры, что может привести к снижению расходов на вычисления и энер
Abstract
Mamba-based State Space Models (SSM) have emerged as a promising alternative
to the ubiquitous transformers. Despite the expressive power of transformers,
the quadratic complexity of computing attention is a major impediment to
scaling performance as we increase the sequence length. SSMs provide an
alternative path that addresses this problem, reducing the computational
complexity requirements of self-attention with novel model architectures for
different domains and fields such as video, text generation and graphs. Thus,
it is important to characterize the behavior of these emerging workloads on
GPUs and understand their requirements during GPU microarchitectural design. In
this work we evaluate Mamba-based SSMs and characterize their behavior during
training on GPUs. We construct a workload suite that offers representative
models that span different model architectures. We then use this suite to
analyze the architectural implications of running Mamba-based SSMs on GPUs. Our
work sheds new light on potential optimizations to continue scaling the
performance for such models.
Ссылки и действия
Дополнительные ресурсы: