Learning to Detect Label Errors by Making Them: A Method for Segmentation and Object Detection Datasets

2508.17930v1 cs.LG, cs.CV 2025-08-27
Авторы:

Sarina Penquitt, Tobias Riedlinger, Timo Heller, Markus Reischl, Matthias Rottmann

Резюме на русском

#### Контекст Данные с выборками ошибочных меток (label errors) оказывают негативное влияние на обучение моделей с учителем, приводя к уменьшению качества предсказаний, смещенным результатам бенчмарков и ухудшению общей точности. Несмотря на то что число данных с выборками, используемых в супервизированных задачах, растёт, существует ограниченное количество методов, которые могут эффективно обнаруживать такие ошибки в данных. Для конкретных задач, таких как сегментация изображений или обнаружение объектов, существуют методы, но они не универсальны и не применяют алгоритмы машинного обучения. Таким образом, в данной работе мы стремимся разработать широкой области применимой универсальную модель, которая способна обнаруживать ошибки в метках для объектного детектирования, сегментации изображений и инстансной сегментации. #### Метод Мы предлагаем метод, основанный на обучении с учителем, для обнаружения ошибок в метках по исходным данным. Метод работает следующим образом: для начала мы вручную внедряем различные типы ошибок в метки в исходные данные. Затем, мы формируем оптимальный вектор входа, который содержит изображение, исходные метки и виртуальные метки, созданные на основе внедренных ошибок. Далее, мы обучаем модель с помощью архитектуры на основе подхода Mask R-CNN, чтобы определять расположение ошибок в метках, которые делались в ходе внедрения. Мы проверяем нашу модель на синтетических данных с внедренными ошибками, а также на реальных данных с ошибками в метках. #### Результаты Мы проверили наш метод на нескольких задачах, включающих сегментацию изображений, объектное детектирование и инстансную сегментацию. Мы использовали несколько баз данных, включая Cityscapes, Pascal VOC и COCO. Наши результаты показали, что наш метод превосходит существующие алгоритмы в обнаружении ошибок в метках для всех задач, а также способен обнаруживать реальные ошибки в метках Cityscapes. Мы также выпустили набор данных с 459 реальными ошибками в метках Cityscapes и предоставили бенчмарк для обнаружения реальных ошибок. #### Значимость Метод, предложенный в нашей работе, может быть применён в различных областях, включая автоматизированное вождение, роботизированные системы, обработку изображений и другие приложения супервизированного обучения. Наш метод имеет ключевые преимущества, такие как универсальность, точность и высокая скорость. Мы считаем, что наш подход может существенно повлиять на развитие методов обнаружения ошибок в метках в будущем, и мы планируем продолжить развитие нашей модели, чтобы улучшить её возможности в распознавании реальных ошибок в метках. #### Выводы Мы предлагаем универса

Abstract

Recently, detection of label errors and improvement of label quality in datasets for supervised learning tasks has become an increasingly important goal in both research and industry. The consequences of incorrectly annotated data include reduced model performance, biased benchmark results, and lower overall accuracy. Current state-of-the-art label error detection methods often focus on a single computer vision task and, consequently, a specific type of dataset, containing, for example, either bounding boxes or pixel-wise annotations. Furthermore, previous methods are not learning-based. In this work, we overcome this research gap. We present a unified method for detecting label errors in object detection, semantic segmentation, and instance segmentation datasets. In a nutshell, our approach - learning to detect label errors by making them - works as follows: we inject different kinds of label errors into the ground truth. Then, the detection of label errors, across all mentioned primary tasks, is framed as an instance segmentation problem based on a composite input. In our experiments, we compare the label error detection performance of our method with various baselines and state-of-the-art approaches of each task's domain on simulated label errors across multiple tasks, datasets, and base models. This is complemented by a generalization study on real-world label errors. Additionally, we release 459 real label errors identified in the Cityscapes dataset and provide a benchmark for real label error detection in Cityscapes.

Ссылки и действия