SoilNet: A Multimodal Multitask Model for Hierarchical Classification of Soil Horizons
2508.03785v1
cs.LG, cs.AI
2025-08-09
Авторы:
Teodor Chiaburu, Vipin Singh, Frank Haußer, Felix Bießmann
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Классификация горизонтов почвы является важной задачей в эмпирических науках, так как она играет ключевую роль в мониторинге состояния почвы, что влияет на сельскохозяйственную продуктивность, безопасность продовольствия, стабильность экосистем и устойчивость к изменению климата. Однако этот процесс представляет собой сложную задачу, требующую учета мультимодальных данных, таких как изображения и геотемпоральные метаданные, а также сложной иерархической структуры горизонтов почвы. Традиционные методы классификации горизонтов часто сталкиваются с проблемами, связанными с большим количеством возможных лейблов, дисбаллансом данных и нелинейными взаимосвязями между горизонтами.
Недавние достижения в области фаундэйшен-моделей показали выдающиеся результаты во многих областях, но эти модели еще не были эффективно применены к задачам, требующим учета сложной иерархической структуры данных, как это требуется для классификации горизонтов почвы. Таким образом, необходимо разработать модель, которая может эффективно обрабатывать мультимодальные входные данные, обрабатывать иерархические структуры лейблов и обеспечить высокую точность классификации.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В этой работе авторы представляют $\textit{SoilNet}$, мультимодальную мультизадачную модель, предназначенную для классификации горизонтов почвы. Модель состоит из нескольких модулей, каждый из которых выполняет определенную функцию.
В первую очередь, модель использует изображения и геотемпоральные метаданные для предсказания глубинных маркеров, которые помогают разделить почвенный профиль на кандидаты на горизонты. Каждый сегмент получает набор морфологических черт, специфичных для горизонта. Далее, для каждого сегмента предсказывается лейбл горизонта, используя вектор мультимодальных фич, полученных из изображений и метаданных.
Одним из ключевых элементов модели является использование графового представления лейблов для учета сложной иерархической структуры горизонтов. Это позволяет модели эффективно обрабатывать большое количество возможных лейблов, а также учитывать их нелинейные взаимосвязи.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели эксперименты на реальном датасете почвенных профилей, чтобы оценить эффективность $\textit{SoilNet}$. Для этого использовались данные, включающие изображения почвы и геотемпоральные метаданные. Модель демонстрирует высокую точность классификации, превосходя существующие подходы, особенно в случаях с большим количеством лейблов и дисбаллансом данных.
Результаты показывают, что интеграция изображений и метаданных, а также использование графового представления лейблов значительно улучшают качество классификации. Модель показала стабильные результаты даже в сложных сценариях, где требуется учет многих взаимосвязанных горизонтов.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
$\textit{SoilNet}$ имеет широкое применение в сельскохозяйственной и экологической науке. Точная классификация горизонтов почвы помогает в мониторинге состояния почвы, что важно для повышения сельскохозяйственной продуктивности, обеспечения безопасности продовольствия и поддержания экосистемной стабильности. Кроме того, модель может быть использована для мониторинга изменений в почве в зависимости от условий климата, что делает ее инструментом для климатической резильентности.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В этой работе была представлена $\textit{SoilNet}$, модель, эффективно решающая задачу классификации горизонтов почвы с помощью мультимодальных входных данных и графового представления лейблов. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более крупных датасетов и расширение модели для учета еще более сложных иерархических структур.
Abstract
While recent advances in foundation models have improved the state of the art
in many domains, some problems in empirical sciences could not benefit from
this progress yet. Soil horizon classification, for instance, remains
challenging because of its multimodal and multitask characteristics and a
complex hierarchically structured label taxonomy. Accurate classification of
soil horizons is crucial for monitoring soil health, which directly impacts
agricultural productivity, food security, ecosystem stability and climate
resilience. In this work, we propose $\textit{SoilNet}$ - a multimodal
multitask model to tackle this problem through a structured modularized
pipeline. Our approach integrates image data and geotemporal metadata to first
predict depth markers, segmenting the soil profile into horizon candidates.
Each segment is characterized by a set of horizon-specific morphological
features. Finally, horizon labels are predicted based on the multimodal
concatenated feature vector, leveraging a graph-based label representation to
account for the complex hierarchical relationships among soil horizons. Our
method is designed to address complex hierarchical classification, where the
number of possible labels is very large, imbalanced and non-trivially
structured. We demonstrate the effectiveness of our approach on a real-world
soil profile dataset. All code and experiments can be found in our repository:
https://github.com/calgo-lab/BGR/
Ссылки и действия
Дополнительные ресурсы: