Improving watermelon (Citrullus lanatus) disease classification with generative artificial intelligence (GenAI)-based synthetic and real-field images via a custom EfficientNetV2-L model
2508.10156v1
cs.CV, cs.AI, cs.ET
2025-08-15
Авторы:
Nitin Rai, Nathan S. Boyd, Gary E. Vallad, Arnold W. Schumann
Резюме на русском
#### Контекст
Агроиндустрия сталкивается с вопросами, связанными с распознаванием и классификацией болезней растений, которые могут значительно снизить урожайность и качество сбора. Особенно актуальным является классификация болезней водянистого melon (Citrullus lanatus), так как она наносит огромные ущерба земледелию. Традиционные методы распознавания болезней часто требуют ресурсоёмких внешнего сбора и обработки данных. Однако с появлением generative artificial intelligence (GenAI), а именно моделей, которые генерируют высококачественные синтетические изображения, возникла возможность упростить и ускорить процесс обучения компьютерным зрением. Однако достаточно мало исследований посвящено изучению возможности сочетания синтетических и реальных изображений для повышения точности классификации. В данном исследовании рассматривается эффективность использования синтетических изображений в сочетании с реальными классификации болезней водянистого melon.
#### Метод
Структура исследования основывается на существующих моделях глубокого обучения, в частности EfficientNetV2-L. Обучение проводилось на специально созданном датасете, содержащем синтетические изображения, сгенерированные с помощью GenAI, а также реальные изображения с обнаруженными в водием болезнями melon. Модель разделилась на пять типов обучения: H0 (только реальные изображения), H1 (только синтетические изображения), H2 (1:1 реальные и синтетические), H3 (1:10 реальные и синтетические), H4 (H3 + добавление рандомных изображений для увеличения вариативности и модели генерализации). Таким образом, исследовалось сочетание синтетических и реальных изображений с целью повышения точности, рекуррентности и F1-меры.
#### Результаты
Исследование показало, что обучение модели EfficientNetV2-L на смешанных данных (смеси реальных и синтетических изображений) приводит к значительному повышению точности классификации. Например, если модель обучалась только на реальных изображениях (H0), то F1-мера составила 0,65, в то время как при обучении на смеси реальных и синтетических изображений в отношении 1:10 (H3), F1-мера достигла 1,00. Таким образом, модель, обученная на смешанных данных, показала значительное повышение в точности и уменьшение в зависимости от ресурсоёмкого сбора данных.
#### Значимость
Результаты данного исследования имеют значительное значение для агроиндустрии, так как показывают, что синтетические изображения могут значительно повысить точность классификации, но не могут полностью заменить реальные изображения. Данный подход может быть применён для классификации других зерновых куль
Abstract
The current advancements in generative artificial intelligence (GenAI) models
have paved the way for new possibilities for generating high-resolution
synthetic images, thereby offering a promising alternative to traditional image
acquisition for training computer vision models in agriculture. In the context
of crop disease diagnosis, GenAI models are being used to create synthetic
images of various diseases, potentially facilitating model creation and
reducing the dependency on resource-intensive in-field data collection.
However, limited research has been conducted on evaluating the effectiveness of
integrating real with synthetic images to improve disease classification
performance. Therefore, this study aims to investigate whether combining a
limited number of real images with synthetic images can enhance the prediction
accuracy of an EfficientNetV2-L model for classifying watermelon
\textit{(Citrullus lanatus)} diseases. The training dataset was divided into
five treatments: H0 (only real images), H1 (only synthetic images), H2 (1:1
real-to-synthetic), H3 (1:10 real-to-synthetic), and H4 (H3 + random images to
improve variability and model generalization). All treatments were trained
using a custom EfficientNetV2-L architecture with enhanced fine-tuning and
transfer learning techniques. Models trained on H2, H3, and H4 treatments
demonstrated high precision, recall, and F1-score metrics. Additionally, the
weighted F1-score increased from 0.65 (on H0) to 1.00 (on H3-H4) signifying
that the addition of a small number of real images with a considerable volume
of synthetic images improved model performance and generalizability. Overall,
this validates the findings that synthetic images alone cannot adequately
substitute for real images; instead, both must be used in a hybrid manner to
maximize model performance for crop disease classification.
Ссылки и действия
Дополнительные ресурсы: