SynGen-Vision: Synthetic Data Generation for training industrial vision models
2509.04894v1
cs.CV, cs.LG, I.4
2025-09-09
Авторы:
Alpana Dubey, Suma Mani Kuriakose, Nitish Bhardwaj
Резюме на русском
## Контекст
Область исследования — синтетическое генерирование данных для обучения моделей компьютерного зрения (CV), специфичных для промышленных задач. Одна из таких задач — обнаружение износа и повреждений при помощи CV-моделей, которая критична для проведения прогностического обслуживания в различных отраслях. Однако данные для обучения таких моделей являются дорогостоящими и сложны в подготовке из-за нехватки широкой выборки изображений, охватывающих различные сценарии износа и повреждений. Готовые данные для этих задач нередко отсутствуют, что приводит к затрудненному обучению моделей и ограниченной их общедоступной эффективности. Мотивация заключается в создании метода, который позволит генерировать синтетические данные для обучения моделей обнаружения износа и повреждений, оптимально адаптированных для промышленных сценариев.
## Метод
Проposed approach включает в себя использование vision language model (VLM) в сочетании с 3D-симулятором и рендеринговым движком для генерирования синтетических данных. Модель VLM используется для генерирования текстовых описаний износа и повреждений, которые затем передаются в 3D-симулятор для создания реалистичных синтетических изображений. Модель рендеринга создает изображения с различными уровнями износа (например, различные стадии ржавчины), которые затем могут использоваться для обучения CV-моделей. Эта процедура позволяет создавать пользовательскими настройками синтетические данные, учитывающие различные промышленные сценарии. Техническая архитектура включает в себя несколько модулей: VLM для понимания текстовых описаний, 3D-симулятор для моделирования износа и повреждений, и рендеринговый движок для генерации изображений.
## Результаты
Для оценки эффективности approach была проведена серия экспериментов. Была создана выборка синтетических данных с различными уровнями ржавчины, используя VLM и 3D-симулятор. Эти данные были использованы для обучения модели CV, нацеленной на обнаружение ржавчины. Оценка производительности производилась с помощью метрики mAP50 (mean Average Precision with IoU 50%) на реальных изображениях промышленных объектов, покрытых ржавчиной. Результаты показали, что модель, обученная синтетическими данными, достигла максимального mAP50 0.87, что превышает результаты других подходов. Это свидетельствует о том, что синтетические данные, генерируемые нашей системой, не только выполняются эффективно на реальных задачах, но и превосходят другие методы по обучению моделей компьютерного зрения для такого класса задач.
## Значимость
Проposed approach имеет значительное значение для индустрии, так как он может
Abstract
We propose an approach to generate synthetic data to train computer vision
(CV) models for industrial wear and tear detection. Wear and tear detection is
an important CV problem for predictive maintenance tasks in any industry.
However, data curation for training such models is expensive and time-consuming
due to the unavailability of datasets for different wear and tear scenarios.
Our approach employs a vision language model along with a 3D simulation and
rendering engine to generate synthetic data for varying rust conditions. We
evaluate our approach by training a CV model for rust detection using the
generated dataset and tested the trained model on real images of rusted
industrial objects. The model trained with the synthetic data generated by our
approach, outperforms the other approaches with a mAP50 score of 0.87. The
approach is customizable and can be easily extended to other industrial wear
and tear detection scenarios
Ссылки и действия
Дополнительные ресурсы: