Intrinsic Explainability of Multimodal Learning for Crop Yield Prediction

2508.06939v1 cs.AI, cs.LG 2025-08-13
Авторы:

Hiba Najjar, Deepak Pathak, Marlon Nuske, Andreas Dengel

Резюме на русском

-------------------------------------------- ## Контекст ### Область исследования Многомодальное обучение (Multimodal Learning) позволяет использовать различные типы данных для решения комплексных задач, в том числе в области агрономии. В агрономии это применение необходимо для точного прогнозирования урожая, используя информацию из различных источников, таких как спутниковые изображения, погодные данные, карты уклонения терриена и характеристики почвы. Однако, применение таких архитектур часто приводит к усложнению моделей и ухудшению их интерпретируемости. ### Проблемы и мотивация Существующие модели, применяемые к задаче прогнозирования урожая, часто сталкиваются с проблемами в интерпретации результатов. Это ограничивает их удобство для использования в реальных условиях сельскохозяйственного производства. Необходимо разработать методы, которые бы не только повысили точность прогнозирования, но и обеспечили понятную интерпретацию результатов модели. ### Мотивация В данном исследовании рассматривается применение трансформер-базных моделей для решения задачи прогнозирования урожая на уровне подполя (subfield). Эти модели обладают естественной возможностью объяснения (intrinsic explainability), что позволяет детально анализировать их решения. Целью является сравнительный анализ различных способов объяснения результатов, а также оценка эффективности трансформер-моделей в задаче урожайности. -------------------------------------------- ## Метод ### Архитектура и Методы Для обучения использовались модели на базе трансформеров, которые умеют обрабатывать многомодальные данные. Использовались данные из четырех модальностей: спутниковые изображения, погодные данные, карты террейна и характеристики почвы. Модели были обучены на больших данных, включающих различные культуры, регионы и годы. ### Оценка Объясняемости Для оценки причинности решений использовались два метода: Attention Rollout (AR) и Generic Attention (GA). Также был разработан новый метод, Weighted Modality Activation (WMA), для оценки вклада отдельных модальностей в прогноз. Эти методы были сравнены с Shapley Value Sampling (SVS), подходом, основанным на математических играх. ### Оценка Точности Для оценки качества прогноза урожая использовался показатель R2, который измеряет точность по отношению к истинным данным. Модели были сравнивались с другими архитектурами, такими как глубокие сверточные и рекуррентные сети. -------------------------------------------- ## Результаты ### Эксперименты Были проведены эксперименты на широкомасштабных данных, которые включали различные культуры, регионы и годы. Модели были сравнивались на основе R2, а также с помощью метрик, оценивающих интерпретируемость решений. ### Результаты Оценки Объясняемости

Abstract

Multimodal learning enables various machine learning tasks to benefit from diverse data sources, effectively mimicking the interplay of different factors in real-world applications, particularly in agriculture. While the heterogeneous nature of involved data modalities may necessitate the design of complex architectures, the model interpretability is often overlooked. In this study, we leverage the intrinsic explainability of Transformer-based models to explain multimodal learning networks, focusing on the task of crop yield prediction at the subfield level. The large datasets used cover various crops, regions, and years, and include four different input modalities: multispectral satellite and weather time series, terrain elevation maps and soil properties. Based on the self-attention mechanism, we estimate feature attributions using two methods, namely the Attention Rollout (AR) and Generic Attention (GA), and evaluate their performance against Shapley-based model-agnostic estimations, Shapley Value Sampling (SVS). Additionally, we propose the Weighted Modality Activation (WMA) method to assess modality attributions and compare it with SVS attributions. Our findings indicate that Transformer-based models outperform other architectures, specifically convolutional and recurrent networks, achieving R2 scores that are higher by 0.10 and 0.04 at the subfield and field levels, respectively. AR is shown to provide more robust and reliable temporal attributions, as confirmed through qualitative and quantitative evaluation, compared to GA and SVS values. Information about crop phenology stages was leveraged to interpret the explanation results in the light of established agronomic knowledge. Furthermore, modality attributions revealed varying patterns across the two methods compared.[...]

Ссылки и действия