SynGen-Vision: Synthetic Data Generation for training industrial vision models

2509.04894v1 cs.CV, cs.LG, I.4 2025-09-09
Авторы:

Alpana Dubey, Suma Mani Kuriakose, Nitish Bhardwaj

Резюме на русском

## Контекст Область исследования — синтетическое генерирование данных для обучения моделей компьютерного зрения (CV), специфичных для промышленных задач. Одна из таких задач — обнаружение износа и повреждений при помощи CV-моделей, которая критична для проведения прогностического обслуживания в различных отраслях. Однако данные для обучения таких моделей являются дорогостоящими и сложны в подготовке из-за нехватки широкой выборки изображений, охватывающих различные сценарии износа и повреждений. Готовые данные для этих задач нередко отсутствуют, что приводит к затрудненному обучению моделей и ограниченной их общедоступной эффективности. Мотивация заключается в создании метода, который позволит генерировать синтетические данные для обучения моделей обнаружения износа и повреждений, оптимально адаптированных для промышленных сценариев. ## Метод Проposed approach включает в себя использование vision language model (VLM) в сочетании с 3D-симулятором и рендеринговым движком для генерирования синтетических данных. Модель VLM используется для генерирования текстовых описаний износа и повреждений, которые затем передаются в 3D-симулятор для создания реалистичных синтетических изображений. Модель рендеринга создает изображения с различными уровнями износа (например, различные стадии ржавчины), которые затем могут использоваться для обучения CV-моделей. Эта процедура позволяет создавать пользовательскими настройками синтетические данные, учитывающие различные промышленные сценарии. Техническая архитектура включает в себя несколько модулей: VLM для понимания текстовых описаний, 3D-симулятор для моделирования износа и повреждений, и рендеринговый движок для генерации изображений. ## Результаты Для оценки эффективности approach была проведена серия экспериментов. Была создана выборка синтетических данных с различными уровнями ржавчины, используя VLM и 3D-симулятор. Эти данные были использованы для обучения модели CV, нацеленной на обнаружение ржавчины. Оценка производительности производилась с помощью метрики mAP50 (mean Average Precision with IoU 50%) на реальных изображениях промышленных объектов, покрытых ржавчиной. Результаты показали, что модель, обученная синтетическими данными, достигла максимального mAP50 0.87, что превышает результаты других подходов. Это свидетельствует о том, что синтетические данные, генерируемые нашей системой, не только выполняются эффективно на реальных задачах, но и превосходят другие методы по обучению моделей компьютерного зрения для такого класса задач. ## Значимость Проposed approach имеет значительное значение для индустрии, так как он может

Abstract

We propose an approach to generate synthetic data to train computer vision (CV) models for industrial wear and tear detection. Wear and tear detection is an important CV problem for predictive maintenance tasks in any industry. However, data curation for training such models is expensive and time-consuming due to the unavailability of datasets for different wear and tear scenarios. Our approach employs a vision language model along with a 3D simulation and rendering engine to generate synthetic data for varying rust conditions. We evaluate our approach by training a CV model for rust detection using the generated dataset and tested the trained model on real images of rusted industrial objects. The model trained with the synthetic data generated by our approach, outperforms the other approaches with a mAP50 score of 0.87. The approach is customizable and can be easily extended to other industrial wear and tear detection scenarios

Ссылки и действия