Emerging Semantic Segmentation from Positive and Negative Coarse Label Learning
2508.18186v2
cs.CV, cs.LG
2025-08-27
Авторы:
Le Zhang, Fuping Wu, Arun Thirunavukarasu, Kevin Bronik, Thomas Nichols, Bartlomiej W. Papiez
Резюме на русском
## Контекст
В последние годы интерес к подходам в области машинного обучения, ориентированных на сегментацию изображений, продолжает расти. Одним из основных задач в этой области является обучение моделей классификации сегментов изображений (сегментация) с помощью наборов данных, подвергнутых точным разметкам. Однако получение таких разметок требует большого количества ресурсов, в том числе времени и экспертных знаний, что ограничивает применение таких подходов в практических задачах. Другой подход заключается в использовании координатов изображений, где каждый пиксель помечен как относящийся к одной из категорий. Однако этот подход также ограничен временем и сложностью работы. В этой работе мы предлагаем новый подход, использующий грубую разметку изображений как точек данных для обучения сегментационных сетей, что позволяет уменьшить время и сложность процесса разметки.
## Метод
Мы предлагаем метод, основанный на обучении двух связанных сетей с помощью грубой разметки изображений: положительных (целевых) и отрицательных (без целевых) классов. Основная идея заключается в том, чтобы использовать грубую разметку для того, чтобы обучить сеть так, чтобы она могла выделить целевые классы из изображений. Мы используем две связанные сети, чтобы улучшить точность разметки. Одна из сетей обучается для распознавания целевых классов, в то время как другая сеть обучается для распознавания нецелевых классов. Мы также добавляем отдельный модуль для учёта шумовых пикселей в грубой разметке, чтобы сократить ошибки при обучении. Этот подход позволяет сети быстрее и точнее выделять целевые объекты в изображениях.
## Результаты
Мы проверили нашу модель на двух разных наборах данных: Cityscapes (для многоклассовой сегментации) и наборе данных с ретинальными изображениями (для медицинских применений). Мы сравнили наше решение с существующими методами, использующими только точные разметки. В результатах показано, что наш метод демонстрирует значительное улучшение в точности сегментации, особенно при использовании грубой разметки вместо точных разметок. Мы также проводили эксперименты с использованием шумных данных, показав, что наш метод может обучаться даже при наличии ошибок в разметке.
## Значимость
Наш метод может быть использован в ситуациях, когда доступ к точным разметкам ограничен, например, в сфере медицинских изображений или в промышленных приложениях, где получение точных разметок требует больших затрат. Мы считаем, что наш подход может существенно уменьшить время, необходимое для подготовки данных для обучения, и позволить использовать грубую разметку вместо точных разметок.
Abstract
Large annotated datasets are vital for training segmentation models, but
pixel-level labeling is time-consuming, error-prone, and often requires scarce
expert annotators, especially in medical imaging. In contrast, coarse
annotations are quicker, cheaper, and easier to produce, even by non-experts.
In this paper, we propose to use coarse drawings from both positive (target)
and negative (background) classes in the image, even with noisy pixels, to
train a convolutional neural network (CNN) for semantic segmentation. We
present a method for learning the true segmentation label distributions from
purely noisy coarse annotations using two coupled CNNs. The separation of the
two CNNs is achieved by high fidelity with the characters of the noisy training
annotations. We propose to add a complementary label learning that encourages
estimating negative label distribution. To illustrate the properties of our
method, we first use a toy segmentation dataset based on MNIST. We then present
the quantitative results of experiments using publicly available datasets:
Cityscapes dataset for multi-class segmentation, and retinal images for medical
applications. In all experiments, our method outperforms state-of-the-art
methods, particularly in the cases where the ratio of coarse annotations is
small compared to the given dense annotations.
Ссылки и действия
Дополнительные ресурсы: