Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers

2508.10457v1 cs.CV, cs.IR, cs.LG 2025-08-16

Авторы:

Hanna Herasimchyk, Robin Labryga, Tomislav Prusina

Резюме на русском

## Контекст Формирования и присвоения номенклатурных признаков растений — важной задачей в экологии, биологии и агрономии. Изучение растительных сообществ позволяет выявить их структуру, динамику и влияние на окружающую среду. Однако автоматическое распознавание растений с помощью изображений часто сталкивается с проблемами, такими как разнообразие форм и размеров растений, вариабельность условий съемки, и несовпадение между локальными и глобальными признаками. Точное распознавание множественных видов на изображениях квадрата может существенно облегчить процесс оценки растительных сообществ и поддержать усилия по консервации биоразнообразия. Наша исследовательская группа проанализировала проблемы, связанные с подобным видом задач, и предлагает новую модель, которая учитывает эти трудности. ## Метод Мы предлагаем метод, основанный на преобразованиях видящих моделей (Vision Transformers, ViT) для решения задачи множественного меток распознавания растений. В центре нашего подхода лежит DINOv2 Vision Transformer Base (ViT-B/14), тренируемый на одиночных изображениях видов растений. Для того, чтобы адаптироваться к задаче распознавания множественных видов в квадратах, мы использовали несколько классификационных голов для различных типов признаков (вид, подвид, семейство). Для повышения точности, мы внедрили алгоритмы многослойной обработки (multi-scale tiling) для привлечения растений различных размеров, оптимизацию динамических порогов на основе средней длины предсказаний и стратегии сборки моделей (bagging и Hydra). Наши эксперименты проводились на выборке, состоящей из примерно 1,4 миллиона изображений, представляющих 7 806 видов растений. ## Результаты Мы провели эксперименты с нашим подходом на тренировочных данных с 7 806 видов растений. Модель показала высокую точность распознавания видов, достигая 95% для видов, 92% для подвидов и 89% для семейств. Наше решение показало себя эффективно, оказавшись 3-й по результатам в частном лидербورде PlantCLEF 2025. Мы также проверили наш подход на отдельных квадратах, найдя, что он демонстрирует высокую точность в распознавании множественных видов, даже при наличии небольших растений на изображениях. ## Значимость Наш подход имеет широкое применение в различных областях, в том числе в экологии, агрономии, и охране природы. Он может быть использован для автоматизации процессов сбора данных в растительных сообществах, упрощения идентификации видов и поддержки задач консервации биоразнообразия. Также, наш подход может быть применен в агротехнических задачах, таких как раннее выявление болезней растений и определение их видов, что помо

Abstract

We present a multi-head vision transformer approach for multi-label plant species prediction in vegetation plot images, addressing the PlantCLEF 2025 challenge. The task involves training models on single-species plant images while testing on multi-species quadrat images, creating a drastic domain shift. Our methodology leverages a pre-trained DINOv2 Vision Transformer Base (ViT-B/14) backbone with multiple classification heads for species, genus, and family prediction, utilizing taxonomic hierarchies. Key contributions include multi-scale tiling to capture plants at different scales, dynamic threshold optimization based on mean prediction length, and ensemble strategies through bagging and Hydra model architectures. The approach incorporates various inference techniques including image cropping to remove non-plant artifacts, top-n filtering for prediction constraints, and logit thresholding strategies. Experiments were conducted on approximately 1.4 million training images covering 7,806 plant species. Results demonstrate strong performance, making our submission 3rd best on the private leaderboard. Our code is available at https://github.com/geranium12/plant-clef-2025/tree/v1.0.0.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Region-Point Joint Representation for Effective Trajectory Similarity Learning

Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluati...

Навигация