Intrinsic Explainability of Multimodal Learning for Crop Yield Prediction
2508.06939v1
cs.AI, cs.LG
2025-08-13
Авторы:
Hiba Najjar, Deepak Pathak, Marlon Nuske, Andreas Dengel
Резюме на русском
--------------------------------------------
## Контекст
### Область исследования
Многомодальное обучение (Multimodal Learning) позволяет использовать различные типы данных для решения комплексных задач, в том числе в области агрономии. В агрономии это применение необходимо для точного прогнозирования урожая, используя информацию из различных источников, таких как спутниковые изображения, погодные данные, карты уклонения терриена и характеристики почвы. Однако, применение таких архитектур часто приводит к усложнению моделей и ухудшению их интерпретируемости.
### Проблемы и мотивация
Существующие модели, применяемые к задаче прогнозирования урожая, часто сталкиваются с проблемами в интерпретации результатов. Это ограничивает их удобство для использования в реальных условиях сельскохозяйственного производства. Необходимо разработать методы, которые бы не только повысили точность прогнозирования, но и обеспечили понятную интерпретацию результатов модели.
### Мотивация
В данном исследовании рассматривается применение трансформер-базных моделей для решения задачи прогнозирования урожая на уровне подполя (subfield). Эти модели обладают естественной возможностью объяснения (intrinsic explainability), что позволяет детально анализировать их решения. Целью является сравнительный анализ различных способов объяснения результатов, а также оценка эффективности трансформер-моделей в задаче урожайности.
--------------------------------------------
## Метод
### Архитектура и Методы
Для обучения использовались модели на базе трансформеров, которые умеют обрабатывать многомодальные данные. Использовались данные из четырех модальностей: спутниковые изображения, погодные данные, карты террейна и характеристики почвы. Модели были обучены на больших данных, включающих различные культуры, регионы и годы.
### Оценка Объясняемости
Для оценки причинности решений использовались два метода: Attention Rollout (AR) и Generic Attention (GA). Также был разработан новый метод, Weighted Modality Activation (WMA), для оценки вклада отдельных модальностей в прогноз. Эти методы были сравнены с Shapley Value Sampling (SVS), подходом, основанным на математических играх.
### Оценка Точности
Для оценки качества прогноза урожая использовался показатель R2, который измеряет точность по отношению к истинным данным. Модели были сравнивались с другими архитектурами, такими как глубокие сверточные и рекуррентные сети.
--------------------------------------------
## Результаты
### Эксперименты
Были проведены эксперименты на широкомасштабных данных, которые включали различные культуры, регионы и годы. Модели были сравнивались на основе R2, а также с помощью метрик, оценивающих интерпретируемость решений.
### Результаты Оценки Объясняемости
Abstract
Multimodal learning enables various machine learning tasks to benefit from
diverse data sources, effectively mimicking the interplay of different factors
in real-world applications, particularly in agriculture. While the
heterogeneous nature of involved data modalities may necessitate the design of
complex architectures, the model interpretability is often overlooked. In this
study, we leverage the intrinsic explainability of Transformer-based models to
explain multimodal learning networks, focusing on the task of crop yield
prediction at the subfield level. The large datasets used cover various crops,
regions, and years, and include four different input modalities: multispectral
satellite and weather time series, terrain elevation maps and soil properties.
Based on the self-attention mechanism, we estimate feature attributions using
two methods, namely the Attention Rollout (AR) and Generic Attention (GA), and
evaluate their performance against Shapley-based model-agnostic estimations,
Shapley Value Sampling (SVS). Additionally, we propose the Weighted Modality
Activation (WMA) method to assess modality attributions and compare it with SVS
attributions. Our findings indicate that Transformer-based models outperform
other architectures, specifically convolutional and recurrent networks,
achieving R2 scores that are higher by 0.10 and 0.04 at the subfield and field
levels, respectively. AR is shown to provide more robust and reliable temporal
attributions, as confirmed through qualitative and quantitative evaluation,
compared to GA and SVS values. Information about crop phenology stages was
leveraged to interpret the explanation results in the light of established
agronomic knowledge. Furthermore, modality attributions revealed varying
patterns across the two methods compared.[...]
Ссылки и действия
Дополнительные ресурсы: