Minimal Convolutional RNNs Accelerate Spatiotemporal Learning

2508.03614v1 cs.LG, cs.NE 2025-08-09
Авторы:

Coşku Can Horuz, Sebastian Otte, Martin V. Butz, Matthias Karlbauer

Резюме на русском

## Контекст Многие задачи в различных областях (например, метеорологии, обработка изображений и другие) требуют моделей, которые могут эффективно обрабатывать тензорные данные и предсказывать результаты с учетом пространственных и временных зависимостей. Однако существующие методы часто сталкиваются с проблемами масштабируемости, эффективности и точностью. Например, ConvLSTM и ConvGRU эффективны в обработке сложных пространственных зависимостей, но их последовательность обновлений состояния является большим ограничением. Модели, основанные на Minimal LSTMs (MinLSTM) и Minimal GRUs (MinGRU), хорошо подходят для эффективной обработки пространственных зависимостей, но не всегда подходят для сложных пространственно-временных задач. Это создает мотивацию для разработки моделей, которые объединяют лучшие качества обеих этих подходов. ## Метод Мы предлагаем две новые модели – MinConvLSTM и MinConvGRU – которые объединяют методы Log-Domain Prefix-Sum и Convolutional Architectures. Минимальные LSTMs (MinLSTM) являются уменьшенными версиями стандартных LSTMs, которые имеют меньшую сложность и выгодно подходят для пространственных задач. **MinConvLSTM** и **MinConvGRU** расширяют эту идею, используя свёрточные сети для пространственного моделирования. Мы также внедрили экспоненциальный механизм гейтинга, основанный на xLSTM, чтобы улучшить процесс обучения. Мы разработали модели таким образом, чтобы они могли быть обучены параллельно, что значительно улучшает их скорость обучения. ## Результаты Мы проверили нашу модель на двух задачах: синтез динамики Navier-Stokes и данных реального мира, относящихся к геопотенциалу. Мы сравнили MinConvLSTM и MinConvGRU с ConvLSTM и ConvGRU. Наши результаты показали, что минимальные модели обучаются быстрее и показывают лучшие результаты в этих задачах, даже при выполнении задачи в режиме autoregressive. Это свидетельствует о том, что наш подход эффективно комбинирует пространственную моделирование и эффективность в вычислениях. ## Значимость Модели MinConvLSTM и MinConvGRU могут быть применены во многих областях, где требуется моделирование пространственно-временных зависимостей. Они обеспечивают значительное улучшение скорости обучения и точности предсказаний по сравнению с другими моделями. Эта модель может быть применена в метеорологии, технологиях видео-обработки, прогнозировании динамики систем и других сложных задачах. Наш подход предоставляет преимущество в скорости и эффективности, что может положительно влиять на развитие моделей в сложных средах. ## Выводы Мы представили MinConvLSTM и MinConvGRU - модели, которые объединяют лучшие качества ConvRNN и Min LSTM. Наши результаты показали, что эти модели эффективно решаю

Abstract

We introduce MinConvLSTM and MinConvGRU, two novel spatiotemporal models that combine the spatial inductive biases of convolutional recurrent networks with the training efficiency of minimal, parallelizable RNNs. Our approach extends the log-domain prefix-sum formulation of MinLSTM and MinGRU to convolutional architectures, enabling fully parallel training while retaining localized spatial modeling. This eliminates the need for sequential hidden state updates during teacher forcing - a major bottleneck in conventional ConvRNN models. In addition, we incorporate an exponential gating mechanism inspired by the xLSTM architecture into the MinConvLSTM, which further simplifies the log-domain computation. Our models are structurally minimal and computationally efficient, with reduced parameter count and improved scalability. We evaluate our models on two spatiotemporal forecasting tasks: Navier-Stokes dynamics and real-world geopotential data. In terms of training speed, our architectures significantly outperform standard ConvLSTMs and ConvGRUs. Moreover, our models also achieve lower prediction errors in both domains, even in closed-loop autoregressive mode. These findings demonstrate that minimal recurrent structures, when combined with convolutional input aggregation, offer a compelling and efficient alternative for spatiotemporal sequence modeling, bridging the gap between recurrent simplicity and spatial complexity.

Ссылки и действия