Marine Chlorophyll Prediction and Driver Analysis based on LSTM-RF Hybrid Models

2508.05260v1 cs.LG, cs.AI 2025-08-09
Авторы:

Zhouyao Qian, Yang Chen, Baodian Li, Shuyi Zhang, Zhen Tian, Gongsen Wang, Tianyue Gu, Xinyu Zhou, Huilin Chen, Xinyi Li, Hao Zhu, Shuyao Zhang, Zongheng Li, Siyuan Wang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Концентрация хлорофилла в морских водах является важным показателем состояния экосистемы и силы углеродного цикла. Точная прогнозирование этого показателя играет ключевую роль в предупреждении о «красных волнах» (red tide) и адаптивном управлении экологическими системами. Традиционные модели прогнозирования, такие как Long Short-Term Memory (LSTM) и Random Forest (RF), сталкиваются со сложностями в моделировании временных рядов и характеризации нелинейных зависимостей. LSTM хорошо справляется с временными зависимостями, но может быть неэффективен в портретировании комплексных нелинейных связей, тогда как RF Excel в нелинейных анализах, но страдает от недостатков в обработке временных последовательностей. В данном исследовании авторы предлагают гибридную модель LSTM-RF, которая сочетает преимущества обоих подходов, обеспечивая более точный прогноз концентрации хлорофилла. Использование многоисточниковых океанических данных, таких как температура, соленость, растворенный кислород и другие, позволяет создать комплексную модель, способную учитывать разнообразные факторы влияющие на экосистему. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая модель LSTM-RF состоит из двух основных компонентов: LSTM для моделирования временных рядов и RF для анализа нелинейных зависимостей. LSTM, как рекуррентная нейронная сеть, обрабатывает последовательности входных данных, учитывая их временной контекст. RF, с другой стороны, используется для извлечения и анализа нелинейных функций из входных данных. В качестве входных данных модель использует много источников океанической информации, включая температуру, соленость, растворенный кислород и другие физико-химические параметры. Для улучшения точности прогноза, авторы применили стандартизированную обработку данных и метод скользящего окна. Скользящее окно позволяет разбивать временные ряды на меньшие фрагменты, улучшая моделирование короткосрочных изменений. Архитектура модели включает два этапа: в первом этапе, LSTM обрабатывает временные ряды и генерирует временно-зависимые функции; во втором этапе, RF анализирует выходные данные LSTM и нелинейные зависимости между различными факторами. Такая комбинация позволяет добиться лучшей точности в прогнозировании концентрации хлорофилла. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности модели LSTM-RF, авторы провели сравнительные эксперименты с использованием только LSTM и только RF. Данные были получены из многоисточниковых океанических наборов данных, включающих температуру, соленость, растворенный кислород и другие параметры. Результаты показали, что LSTM-RF модель достигла коэффициента детерминации (R^2) в 0.5386, среднеквадратичную ошибку (MSE) в 0.005806, и среднюю абсолютную ошибку (MAE) в 0.057147 на тестовом наборе данных. Эти результаты значительно превосходят производительность модели LSTM (R^2 = 0.0208) и RF (R^2 = 0.4934) использованных в отдельности. Стандартизированная обработка данных и метод скользящего окна также улучшили точность модели. Эти методы позволили лучше учесть короткосрочные изменения в временных рядах и улучшить моделирование нелинейных зависимостей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель LSTM-RF имеет значительное практическое применение в области экологического мониторинга и управления. Точный прогноз концентрации хлорофилла может использоваться для предупреждения о «красных волнах» (red tide), что позволяет быстрее реагировать на экологические кризисы. Кроме того, модель может быть использована для мониторинга состояния экосистем, оценки влияния климатических изменений на морские экосистемы, и разработки стратегий адаптации. Преимущества LSTM-RF модели заключаются в ее способности обрабатывать многоисточниковые данные, обеспечивая более точный и надежный прогноз. Это может привести к улучшению систем мониторинга и управления экологическими ресурсами, а также повышению эффективности мер по сохранению биологического разнообразия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этом исследовании была разработана гибридная модель LSTM-RF, которая эффективно сочетает в себе способность LSTM к моделированию временных рядов и RF к анализу нелинейных зависимостей. Эксперименты показали, что модель достигает значительно вышей точности в прогнозировании концентрации хлорофилла по сравнению с использованием LSTM или RF в отдельности. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более разнообразных источников данных, оптимизацию параметров модели, и расширение ее применения на другие экологические переменные. Кроме того, можно исследовать возможности интеграции модели в реальные системы мониторинга для более эффективного управления экологическими ресурсами.

Abstract

Marine chlorophyll concentration is an important indicator of ecosystem health and carbon cycle strength, and its accurate prediction is crucial for red tide warning and ecological response. In this paper, we propose a LSTM-RF hybrid model that combines the advantages of LSTM and RF, which solves the deficiencies of a single model in time-series modelling and nonlinear feature portrayal. Trained with multi-source ocean data(temperature, salinity, dissolved oxygen, etc.), the experimental results show that the LSTM-RF model has an R^2 of 0.5386, an MSE of 0.005806, and an MAE of 0.057147 on the test set, which is significantly better than using LSTM (R^2 = 0.0208) and RF (R^2 =0.4934) alone , respectively. The standardised treatment and sliding window approach improved the prediction accuracy of the model and provided an innovative solution for high-frequency prediction of marine ecological variables.

Ссылки и действия