Mamba Modulation: On the Length Generalization of Mamba

2509.19633v1 cs.LG, cs.AI, stat.ML 2025-09-26
Авторы:

Peng Lu, Jerry Huang, Qiuhao Zeng, Xinyu Wang, Boxing Wang, Philippe Langlais, Yufei Cui

Резюме на русском

#### Контекст Проблема масштабирования в Трансформер-моделях, особенно в задачах языкового моделирования, ставит перед разработчиками вызов. Традиционная архитектура Трансформера основана на применении квадратично сложной атенционной механики, что приводит к высоким требованиям к вычислительным ресурсам. В этой связи в последние годы развиваются альтернативные модели, стремящиеся решить эту проблему с помощью моделей с подъемом сложности меньшей, чем квадратичное. Одним из таких моделей является Mamba, которая доказала свою эффективность в различных языковых моделированиях. Однако, несмотря на свои достижения, Mamba оказалась чувствительной к продолжению контекста в тестах, в которых входные данные имели длину, отличную от тех, которые рассматривались в предварительном обучении. Этот феномен приводит к ухудшению качества модели и делает ее менее универсальной. Мы рассматриваем эту проблему как результат недостатка генерализации модели на длинные контексты и приступаем к ее расследованию. #### Метод Для разбора причин, по которым Mamba страдает от длинных контекстов, вначале мы проводим подробный анализ внутренних динамик модели, в частности, структуры стейт-спейса. Мы показываем, что проблема возникает из-за поведения состояний в модели, которое передвигается вне диапазона, с которым она сталкивалась в предварительном обучении. Это происходит из-за спектра транзитивного матрицы $\mathbf{A}$, который не устойчив к длинным контекстам. Мы основываем наш анализ на теоретических выводах, подкрепленных экспериментальными исследованиями, и показываем, что изменение спектра $\mathbf{A}$ может улучшить поведение Mamba при продолжении контекста. Методика, которую мы применяем, заключается в модуляции спектра $\mathbf{A}$ в каждом слое модели, чтобы предотвратить выход состояний за установленный диапазон. #### Результаты Мы проводим эксперименты на наборе данных с различными длинами контекста, оценивая качество модели Mamba до и после модуляции спектра. Эксперименты показывают, что простое изменение $\Delta_t$ (параметра отсчёта времени) недостаточно для решения проблемы длинных контекстов, так как оно не адресует ключевую причину — неустойчивость спектра $\mathbf{A}$. В то же время, модуляция спектра позволяет Mamba лучше справляться с тестами на длинные контексты, существенно повышая качество модели. Мы также проводим эксперименты с конкурирующими моделями и показываем, что Mamba модифицированная с помощью нашего подхода показывает значительно лучший результат, чем соревнующиеся модели. #### Значимость Предложенный подход имеет большое значение в сфере моделей с генеральной способностью

Abstract

The quadratic complexity of the attention mechanism in Transformer models has motivated the development of alternative architectures with sub-quadratic scaling, such as state-space models. Among these, Mamba has emerged as a leading architecture, achieving state-of-the-art results across a range of language modeling tasks. However, Mamba's performance significantly deteriorates when applied to contexts longer than those seen during pre-training, revealing a sharp sensitivity to context length extension. Through detailed analysis, we attribute this limitation to the out-of-distribution behaviour of its state-space dynamics, particularly within the parameterization of the state transition matrix $\mathbf{A}$. Unlike recent works which attribute this sensitivity to the vanished accumulation of discretization time steps, $\exp(-\sum_{t=1}^N\Delta_t)$, we establish a connection between state convergence behavior as the input length approaches infinity and the spectrum of the transition matrix $\mathbf{A}$, offering a well-founded explanation of its role in length extension. Next, to overcome this challenge, we propose an approach that applies spectrum scaling to pre-trained Mamba models to enable robust long-context generalization by selectively modulating the spectrum of $\mathbf{A}$ matrices in each layer. We show that this can significantly improve performance in settings where simply modulating $\Delta_t$ fails, validating our insights and providing avenues for better length generalization of state-space models with structured transition matrices.

Ссылки и действия