Minimal Convolutional RNNs Accelerate Spatiotemporal Learning
2508.03614v1
cs.LG, cs.NE
2025-08-09
Авторы:
Coşku Can Horuz, Sebastian Otte, Martin V. Butz, Matthias Karlbauer
Резюме на русском
## Контекст
Многие задачи в различных областях (например, метеорологии, обработка изображений и другие) требуют моделей, которые могут эффективно обрабатывать тензорные данные и предсказывать результаты с учетом пространственных и временных зависимостей. Однако существующие методы часто сталкиваются с проблемами масштабируемости, эффективности и точностью. Например, ConvLSTM и ConvGRU эффективны в обработке сложных пространственных зависимостей, но их последовательность обновлений состояния является большим ограничением. Модели, основанные на Minimal LSTMs (MinLSTM) и Minimal GRUs (MinGRU), хорошо подходят для эффективной обработки пространственных зависимостей, но не всегда подходят для сложных пространственно-временных задач. Это создает мотивацию для разработки моделей, которые объединяют лучшие качества обеих этих подходов.
## Метод
Мы предлагаем две новые модели – MinConvLSTM и MinConvGRU – которые объединяют методы Log-Domain Prefix-Sum и Convolutional Architectures. Минимальные LSTMs (MinLSTM) являются уменьшенными версиями стандартных LSTMs, которые имеют меньшую сложность и выгодно подходят для пространственных задач. **MinConvLSTM** и **MinConvGRU** расширяют эту идею, используя свёрточные сети для пространственного моделирования. Мы также внедрили экспоненциальный механизм гейтинга, основанный на xLSTM, чтобы улучшить процесс обучения. Мы разработали модели таким образом, чтобы они могли быть обучены параллельно, что значительно улучшает их скорость обучения.
## Результаты
Мы проверили нашу модель на двух задачах: синтез динамики Navier-Stokes и данных реального мира, относящихся к геопотенциалу. Мы сравнили MinConvLSTM и MinConvGRU с ConvLSTM и ConvGRU. Наши результаты показали, что минимальные модели обучаются быстрее и показывают лучшие результаты в этих задачах, даже при выполнении задачи в режиме autoregressive. Это свидетельствует о том, что наш подход эффективно комбинирует пространственную моделирование и эффективность в вычислениях.
## Значимость
Модели MinConvLSTM и MinConvGRU могут быть применены во многих областях, где требуется моделирование пространственно-временных зависимостей. Они обеспечивают значительное улучшение скорости обучения и точности предсказаний по сравнению с другими моделями. Эта модель может быть применена в метеорологии, технологиях видео-обработки, прогнозировании динамики систем и других сложных задачах. Наш подход предоставляет преимущество в скорости и эффективности, что может положительно влиять на развитие моделей в сложных средах.
## Выводы
Мы представили MinConvLSTM и MinConvGRU - модели, которые объединяют лучшие качества ConvRNN и Min LSTM. Наши результаты показали, что эти модели эффективно решаю
Abstract
We introduce MinConvLSTM and MinConvGRU, two novel spatiotemporal models that
combine the spatial inductive biases of convolutional recurrent networks with
the training efficiency of minimal, parallelizable RNNs. Our approach extends
the log-domain prefix-sum formulation of MinLSTM and MinGRU to convolutional
architectures, enabling fully parallel training while retaining localized
spatial modeling. This eliminates the need for sequential hidden state updates
during teacher forcing - a major bottleneck in conventional ConvRNN models. In
addition, we incorporate an exponential gating mechanism inspired by the xLSTM
architecture into the MinConvLSTM, which further simplifies the log-domain
computation. Our models are structurally minimal and computationally efficient,
with reduced parameter count and improved scalability. We evaluate our models
on two spatiotemporal forecasting tasks: Navier-Stokes dynamics and real-world
geopotential data. In terms of training speed, our architectures significantly
outperform standard ConvLSTMs and ConvGRUs. Moreover, our models also achieve
lower prediction errors in both domains, even in closed-loop autoregressive
mode. These findings demonstrate that minimal recurrent structures, when
combined with convolutional input aggregation, offer a compelling and efficient
alternative for spatiotemporal sequence modeling, bridging the gap between
recurrent simplicity and spatial complexity.
Ссылки и действия
Дополнительные ресурсы: