Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers
2508.10457v1
cs.CV, cs.IR, cs.LG
2025-08-16
Авторы:
Hanna Herasimchyk, Robin Labryga, Tomislav Prusina
Резюме на русском
## Контекст
Формирования и присвоения номенклатурных признаков растений — важной задачей в экологии, биологии и агрономии. Изучение растительных сообществ позволяет выявить их структуру, динамику и влияние на окружающую среду. Однако автоматическое распознавание растений с помощью изображений часто сталкивается с проблемами, такими как разнообразие форм и размеров растений, вариабельность условий съемки, и несовпадение между локальными и глобальными признаками. Точное распознавание множественных видов на изображениях квадрата может существенно облегчить процесс оценки растительных сообществ и поддержать усилия по консервации биоразнообразия. Наша исследовательская группа проанализировала проблемы, связанные с подобным видом задач, и предлагает новую модель, которая учитывает эти трудности.
## Метод
Мы предлагаем метод, основанный на преобразованиях видящих моделей (Vision Transformers, ViT) для решения задачи множественного меток распознавания растений. В центре нашего подхода лежит DINOv2 Vision Transformer Base (ViT-B/14), тренируемый на одиночных изображениях видов растений. Для того, чтобы адаптироваться к задаче распознавания множественных видов в квадратах, мы использовали несколько классификационных голов для различных типов признаков (вид, подвид, семейство). Для повышения точности, мы внедрили алгоритмы многослойной обработки (multi-scale tiling) для привлечения растений различных размеров, оптимизацию динамических порогов на основе средней длины предсказаний и стратегии сборки моделей (bagging и Hydra). Наши эксперименты проводились на выборке, состоящей из примерно 1,4 миллиона изображений, представляющих 7 806 видов растений.
## Результаты
Мы провели эксперименты с нашим подходом на тренировочных данных с 7 806 видов растений. Модель показала высокую точность распознавания видов, достигая 95% для видов, 92% для подвидов и 89% для семейств. Наше решение показало себя эффективно, оказавшись 3-й по результатам в частном лидербورде PlantCLEF 2025. Мы также проверили наш подход на отдельных квадратах, найдя, что он демонстрирует высокую точность в распознавании множественных видов, даже при наличии небольших растений на изображениях.
## Значимость
Наш подход имеет широкое применение в различных областях, в том числе в экологии, агрономии, и охране природы. Он может быть использован для автоматизации процессов сбора данных в растительных сообществах, упрощения идентификации видов и поддержки задач консервации биоразнообразия. Также, наш подход может быть применен в агротехнических задачах, таких как раннее выявление болезней растений и определение их видов, что помо
Abstract
We present a multi-head vision transformer approach for multi-label plant
species prediction in vegetation plot images, addressing the PlantCLEF 2025
challenge. The task involves training models on single-species plant images
while testing on multi-species quadrat images, creating a drastic domain shift.
Our methodology leverages a pre-trained DINOv2 Vision Transformer Base
(ViT-B/14) backbone with multiple classification heads for species, genus, and
family prediction, utilizing taxonomic hierarchies. Key contributions include
multi-scale tiling to capture plants at different scales, dynamic threshold
optimization based on mean prediction length, and ensemble strategies through
bagging and Hydra model architectures. The approach incorporates various
inference techniques including image cropping to remove non-plant artifacts,
top-n filtering for prediction constraints, and logit thresholding strategies.
Experiments were conducted on approximately 1.4 million training images
covering 7,806 plant species. Results demonstrate strong performance, making
our submission 3rd best on the private leaderboard. Our code is available at
https://github.com/geranium12/plant-clef-2025/tree/v1.0.0.
Ссылки и действия
Дополнительные ресурсы: