STM3: Mixture of Multiscale Mamba for Long-Term Spatio-Temporal Time-Series Prediction
2508.12247v1
cs.LG, cs.AI
2025-08-19
Авторы:
Haolong Chen, Liang Zhang, Zhengyuan Xin, Guangxu Zhu
Резюме на русском
#### Контекст
В последние годы специалисты наблюдают стремительное развитие области прогнозирования временных рядов, основанного на многослойных сетях (Deep Learning). Несмотря на эти успехи, существуют значительные проблемы в области прогнозирования сложных динамик временных рядов, которые протягиваются на долгосрочные периоды и включают многоуровневую специфику пространственных и временных зависимостей. Такие зависимости трудно обнаружить и эффективно моделировать существующими методами. Это приводит к недостаточной точности прогнозов и невозможности учесть все важные факторы. Таким образом, необходимо развитие новых алгоритмов, которые могут эффективно учитывать эти характеристики.
#### Метод
Мы предлагаем новую архитектуру, названную **STM2 (Spatio-Temporal Multiscale Mamba)**, которая состоит из двух ключевых компонентов: **Мультимасштабной Мамба** и **Адаптивной Графовой Сети Каузальной Конволюции**. **Мультимасштабная Мамба** эффективно извлекает многоуровневую информацию, используя множество специализированных моделей, чтобы выделить информацию разного масштаба. **Адаптивная Графовая Сеть**, в свою очередь, анализирует сложные зависимости в данных, соединяя взаимосвязанные точки на пространственной сетке. Для улучшения модели STM2, мы предлагаем **STM3 (Spatio-Temporal Mixture of Multiscale Mamba)**, которая включает в себя специальное **Микстое Архитектурное Решение**. Это решение включает в себя более стабильный механизм маршрутизации, а также **Каскадное Спонтанное Обучение**, что помогает модели разделять сложные динамические шаблоны на разных уровнях.
#### Результаты
Мы проводили эксперименты с использованием реальных данных сети мониторинга качества воздуха и данных датчиков системы мониторинга дорожного движения. STM2 показала значительные улучшения по сравнению с другими методами, в том числе в том, что она предсказывает динамику на более длинных периодах с меньшим количеством ошибок. Для STM3 мы продемонстрировали еще более высокую точность и стабильность. Эти результаты подтверждают эффективность нашего подхода в области долгосрочного прогнозирования сложных временных рядов.
#### Значимость
Выраженная в модели STM2/STM3 гибкость и эффективность делают ее применимым решением для многих областей, таких как мониторинг климатических изменений, прогнозирование трафика и мониторинг систем энергоэффективности. В отличие от существующих алгоритмов, STM3 может лучше учитывать многоуровневые зависимости и выделять различные динамические шаблоны. Это открывает новые возможности для понимания и
Abstract
Recently, spatio-temporal time-series prediction has developed rapidly, yet
existing deep learning methods struggle with learning complex long-term
spatio-temporal dependencies efficiently. The long-term spatio-temporal
dependency learning brings two new challenges: 1) The long-term temporal
sequence includes multiscale information naturally which is hard to extract
efficiently; 2) The multiscale temporal information from different nodes is
highly correlated and hard to model. To address these challenges, we propose an
efficient \textit{\textbf{S}patio-\textbf{T}emporal \textbf{M}ultiscale
\textbf{M}amba} (STM2) that includes a multiscale Mamba architecture to capture
the multiscale information efficiently and simultaneously, and an adaptive
graph causal convolution network to learn the complex multiscale
spatio-temporal dependency. STM2 includes hierarchical information aggregation
for different-scale information that guarantees their distinguishability. To
capture diverse temporal dynamics across all spatial nodes more efficiently, we
further propose an enhanced version termed
\textit{\textbf{S}patio-\textbf{T}emporal \textbf{M}ixture of
\textbf{M}ultiscale \textbf{M}amba} (STM3) that employs a special
Mixture-of-Experts architecture, including a more stable routing strategy and a
causal contrastive learning strategy to enhance the scale distinguishability.
We prove that STM3 has much better routing smoothness and guarantees the
pattern disentanglement for each expert successfully. Extensive experiments on
real-world benchmarks demonstrate STM2/STM3's superior performance, achieving
state-of-the-art results in long-term spatio-temporal time-series prediction.
Ссылки и действия
Дополнительные ресурсы: