STM3: Mixture of Multiscale Mamba for Long-Term Spatio-Temporal Time-Series Prediction

2508.12247v1 cs.LG, cs.AI 2025-08-19
Авторы:

Haolong Chen, Liang Zhang, Zhengyuan Xin, Guangxu Zhu

Резюме на русском

#### Контекст В последние годы специалисты наблюдают стремительное развитие области прогнозирования временных рядов, основанного на многослойных сетях (Deep Learning). Несмотря на эти успехи, существуют значительные проблемы в области прогнозирования сложных динамик временных рядов, которые протягиваются на долгосрочные периоды и включают многоуровневую специфику пространственных и временных зависимостей. Такие зависимости трудно обнаружить и эффективно моделировать существующими методами. Это приводит к недостаточной точности прогнозов и невозможности учесть все важные факторы. Таким образом, необходимо развитие новых алгоритмов, которые могут эффективно учитывать эти характеристики. #### Метод Мы предлагаем новую архитектуру, названную **STM2 (Spatio-Temporal Multiscale Mamba)**, которая состоит из двух ключевых компонентов: **Мультимасштабной Мамба** и **Адаптивной Графовой Сети Каузальной Конволюции**. **Мультимасштабная Мамба** эффективно извлекает многоуровневую информацию, используя множество специализированных моделей, чтобы выделить информацию разного масштаба. **Адаптивная Графовая Сеть**, в свою очередь, анализирует сложные зависимости в данных, соединяя взаимосвязанные точки на пространственной сетке. Для улучшения модели STM2, мы предлагаем **STM3 (Spatio-Temporal Mixture of Multiscale Mamba)**, которая включает в себя специальное **Микстое Архитектурное Решение**. Это решение включает в себя более стабильный механизм маршрутизации, а также **Каскадное Спонтанное Обучение**, что помогает модели разделять сложные динамические шаблоны на разных уровнях. #### Результаты Мы проводили эксперименты с использованием реальных данных сети мониторинга качества воздуха и данных датчиков системы мониторинга дорожного движения. STM2 показала значительные улучшения по сравнению с другими методами, в том числе в том, что она предсказывает динамику на более длинных периодах с меньшим количеством ошибок. Для STM3 мы продемонстрировали еще более высокую точность и стабильность. Эти результаты подтверждают эффективность нашего подхода в области долгосрочного прогнозирования сложных временных рядов. #### Значимость Выраженная в модели STM2/STM3 гибкость и эффективность делают ее применимым решением для многих областей, таких как мониторинг климатических изменений, прогнозирование трафика и мониторинг систем энергоэффективности. В отличие от существующих алгоритмов, STM3 может лучше учитывать многоуровневые зависимости и выделять различные динамические шаблоны. Это открывает новые возможности для понимания и

Abstract

Recently, spatio-temporal time-series prediction has developed rapidly, yet existing deep learning methods struggle with learning complex long-term spatio-temporal dependencies efficiently. The long-term spatio-temporal dependency learning brings two new challenges: 1) The long-term temporal sequence includes multiscale information naturally which is hard to extract efficiently; 2) The multiscale temporal information from different nodes is highly correlated and hard to model. To address these challenges, we propose an efficient \textit{\textbf{S}patio-\textbf{T}emporal \textbf{M}ultiscale \textbf{M}amba} (STM2) that includes a multiscale Mamba architecture to capture the multiscale information efficiently and simultaneously, and an adaptive graph causal convolution network to learn the complex multiscale spatio-temporal dependency. STM2 includes hierarchical information aggregation for different-scale information that guarantees their distinguishability. To capture diverse temporal dynamics across all spatial nodes more efficiently, we further propose an enhanced version termed \textit{\textbf{S}patio-\textbf{T}emporal \textbf{M}ixture of \textbf{M}ultiscale \textbf{M}amba} (STM3) that employs a special Mixture-of-Experts architecture, including a more stable routing strategy and a causal contrastive learning strategy to enhance the scale distinguishability. We prove that STM3 has much better routing smoothness and guarantees the pattern disentanglement for each expert successfully. Extensive experiments on real-world benchmarks demonstrate STM2/STM3's superior performance, achieving state-of-the-art results in long-term spatio-temporal time-series prediction.

Ссылки и действия