Improved Sub-Visible Particle Classification in Flow Imaging Microscopy via Generative AI-Based Image Synthesis
2508.06021v1
cs.CV, cs.AI, cs.LG
2025-08-12
Авторы:
Utku Ozbulak, Michaela Cohrs, Hristo L. Svilenov, Joris Vankerschaver, Wesley De Neve
Резюме на русском
## Контекст
Sub-visible particle analysis в flow imaging microscopy широко применяется в промышленности, где необходимо идентифицировать различные типы частиц, включая силиконовое масло, белки и воздушные крупинки. Однако применение многоклассовых классификаторов сталкивается с существенными проблемами, в том числе нехваткой данных и неравномерным распределением классов. Такие проблемы особенно актуальны для редких типов частиц, таких как воздушные крупинки или силиконовое масло, которые встречаются реже, чем белки. Эти ограничения приводят к неэффективности классификации и снижению качества результатов. Для решения этой проблемы предлагается использовать генерирующие модели глубокого обучения, которые способны создавать высококачественные изображения частиц для более эффективного обучения классификационных моделей.
## Метод
Разработанной работе лежит Diffusion Model (DDPM), которая генерирует высококачественные изображения частиц, эмулирующие реальные образцы. Метод основывается на предсказании изображений в гауссовом распределении, которое позволяет улучшить данные для обучения. Модель обучается на выборке данных, содержащей 500,000 изображений белковых частиц, и используется для генерирования изображений редких типов частиц, таких как воздушные крупинки или силиконовое масло. Для эффективного обучения классификационной модели включены изображения, генерированные диффузионной моделью, в качестве дополнения к основной выборке.
## Результаты
Выполнены крупномасштабные эксперименты с 500,000 изображений белковых частиц, которые показали, что добавление генерируемых изображений диффузионной модели в обучающую выборку улучшает качество классификации. Это продемонстрировано на тестовой выборке, где использовались изображения с различных классов частиц. Обнаружено, что добавление генерируемых изображений к обучающей выборке не только улучшает точность классификации, но и повышает уверенность модели в предсказаниях. Кроме того, проведено сравнение с другими методами, чтобы подтвердить высокую эффективность предложенного подхода.
## Значимость
Разработанный подход может быть применен в различных областях промышленности, где требуется точная классификация частиц. Это позволяет улучшить качество продукции, снижать риски связанные с недостаточной идентификацией частиц и повысить эффективность производства. Благодаря генерируемым изображениям можно получить более богатую выборку данных, что улучшает обучение глубоких сетей. Также этот подход может быть полезен для обучения моделей классификации в других аналогичных задачах с небольшими обучающими выборка
Abstract
Sub-visible particle analysis using flow imaging microscopy combined with
deep learning has proven effective in identifying particle types, enabling the
distinction of harmless components such as silicone oil from protein particles.
However, the scarcity of available data and severe imbalance between particle
types within datasets remain substantial hurdles when applying multi-class
classifiers to such problems, often forcing researchers to rely on less
effective methods. The aforementioned issue is particularly challenging for
particle types that appear unintentionally and in lower numbers, such as
silicone oil and air bubbles, as opposed to protein particles, where obtaining
large numbers of images through controlled settings is comparatively
straightforward. In this work, we develop a state-of-the-art diffusion model to
address data imbalance by generating high-fidelity images that can augment
training datasets, enabling the effective training of multi-class deep neural
networks. We validate this approach by demonstrating that the generated samples
closely resemble real particle images in terms of visual quality and structure.
To assess the effectiveness of using diffusion-generated images in training
datasets, we conduct large-scale experiments on a validation dataset comprising
500,000 protein particle images and demonstrate that this approach improves
classification performance with no negligible downside. Finally, to promote
open research and reproducibility, we publicly release both our diffusion
models and the trained multi-class deep neural network classifiers, along with
a straightforward interface for easy integration into future studies, at
https://github.com/utkuozbulak/svp-generative-ai.
Ссылки и действия
Дополнительные ресурсы: