Rethinking Selectivity in State Space Models: A Minimal Predictive Sufficiency Approach

2508.03158v1 cs.LG, cs.IT, math.IT 2025-08-09
Авторы:

Yiyi Wang, Jian'an Zhang, Hongyi Duan, Haoyang Liu, Qingyang Li

Резюме на русском

#### Контекст State Space Models (SSMs), особенно их современные выборочные варианты, такие как Mamba, стали одним из ключевых архитектурных подходов в области последовательного моделирования, нарушая монополию трансформеров. Их успех значительно зависит от интуитивно выбранных селективных механизмов, которые не основываются на формальных теоретических принципах. Это порождает сомнения в их эффективности и устойчивости к негативному влиянию спурных зависимостей. Наша исследовательская мотивация заключается в создании модели, основывающейся на формальном информационно-теоретическом подходе, способной эффективно обрабатывать последовательные данные. #### Метод Мы предлагаем **Минимально Избыточно-Содержащуюся Модель State Space (MPS-SSM)**, где селективный механизм определяется при помощи минимизации функции ошибки, спрятанной в теореме о необходимости. Это позволяет модели максимально эффективно сжимать исторические данные, сохраняя максимальную емкость предсказания. Математический основной принцип — **принцип предсказуемой достаточности** — гарантирует, что модель будет выделять только те сведения, которые необходимы для точного прогнозирования. Мы также расширяем принцип на другие архитектуры, используя его в качестве регуляризации. #### Результаты Мы проверили модель MPS-SSM на многочисленных бенчмарк-датасетах, включая задачи классификации, регрессии и синтетических задач, которые представляют из себя громкое фоновое шумное раздражение. Мы сравнивали результаты с предыдущими лидерами, такими как Mamba и GNN-based модели. Наши результаты показали, что MPS-SSM достигает более высокой точности в долгосрочных прогнозах и в условиях шумов. Мы также продемонстрировали, что MPS-SSM значительно устойчив к переобучению и спурным корреляциям. #### Значимость Предложенный подход может быть применен в различных дисциплинах, где используются последовательные модели, таких как ИИ в системах контроля процессов, анализ речевых данных и системы мониторинга экологических параметров. Обладая высокой робастностью и эффективностью, MPS-SSM может стать ведущим подходом в области последовательного моделирования. Он также предлагает новый способ регулирования других моделей, улучшая их производительность и стабильность. #### Выводы Мы представили новую структуру **MPS-SSM**, которая оптимизирует процесс выбора исторических данных на основе информационно-теоретических принципов. Эта модель не только показала себя лучше текущих лидеров в области последовательного моделирования, но и открыла новые возмо

Abstract

State Space Models (SSMs), particularly recent selective variants like Mamba, have emerged as a leading architecture for sequence modeling, challenging the dominance of Transformers. However, the success of these state-of-the-art models largely relies on heuristically designed selective mechanisms, which lack a rigorous first-principle derivation. This theoretical gap raises questions about their optimality and robustness against spurious correlations. To address this, we introduce the Principle of Predictive Sufficiency, a novel information-theoretic criterion stipulating that an ideal hidden state should be a minimal sufficient statistic of the past for predicting the future. Based on this principle, we propose the Minimal Predictive Sufficiency State Space Model (MPS-SSM), a new framework where the selective mechanism is guided by optimizing an objective function derived from our principle. This approach encourages the model to maximally compress historical information without losing predictive power, thereby learning to ignore non-causal noise and spurious patterns. Extensive experiments on a wide range of benchmark datasets demonstrate that MPS-SSM not only achieves state-of-the-art performance, significantly outperforming existing models in long-term forecasting and noisy scenarios, but also exhibits superior robustness. Furthermore, we show that the MPS principle can be extended as a general regularization framework to enhance other popular architectures, highlighting its broad potential.

Ссылки и действия