A Data-Centric Perspective on the Influence of Image Data Quality in Machine Learning Models

2509.24420v1 cs.CV, cs.AI, eess.IV 2025-10-01

Авторы:

Pei-Han Chen, Szu-Chi Chung

Резюме на русском

#### Контекст Исследования в области машинного обучения (МО) становятся все более направленными на развитие моделей, но все чаще набирает силу роль качества данных в обучении. Традиционно, в качестве тренировочных данных используются объемные, но не всегда чистые коллекции, что может снизить эффективность моделей. Особенно актуально это в изображениях, где зачастую имеются различные дефекты, влияющие на качество обучения. Несмотря на важность этого аспекта, научно-исследовательская литература относительно недостаточно раскрывает методы оценки и улучшения качества изображений для моделей МО. Учитывая это, данная работа будет сосредоточена на поиске решений для оценки качества изображений в обучающих данных и определении степени влияния качества на модели МО. #### Метод Для анализа качества изображений в работе используется множество методов, включая автоматическую технику оценки дефектов в изображениях, а также сравнение их между собой. Для проверки эффективности различных методов, в ходе экспериментов были использованы обучающие данные из набора CIFAKE. Этот набор данных является достаточно чистым, что позволяет более точно определить влияние различных уровней изображения на модели. Для обнаружения и удаления дефектов в изображениях, авторы работы предлагают интегрировать две открытой доступа инструменты: CleanVision и Fastdup. Кроме того, в процессе работы были внедрены дополнительные методы, в том числе автоматическая настройка порогов для обнаружения проблемных изображений, чтобы уменьшить необходимость вручную регулировать эти параметры. #### Результаты Исследования показали, что не все дефекты одного уровня имеют одинаковое влияние на модель. Точнее, модели сверточных нейронных сетей (СНС), которые обычно являются наиболее подверженными дефектам, оказались весьма жесткими в отношении мелких дефектов, но очень чуствительны к достаточно существенным дефектов, таким как размытие или сильное уменьшение разрешения изображения. В ходе экспериментов, для оценки качества обучения, использовались показатели F1-меры, которые позволяют измерить точность и полноту распознавания низкокачественных изображений. Таким образом, авторы работы могли оценить влияние различных уровней дефектов на модель. Например, автоматический подбор порогов для обнаружения проблемных изображений оказался эффективным, чтобы значительно улучшить оценку F1-меры. #### Значимость Результаты работы имеют широкую полезность для разных областей, где требуется высокая точность моделей МО. В частности, в сферах, где качество обучающих данных может отличаться, например, в медицине, недвижимости, или мониторинге зон

Abstract

In machine learning, research has traditionally focused on model development, with relatively less attention paid to training data. As model architectures have matured and marginal gains from further refinements diminish, data quality has emerged as a critical factor. However, systematic studies on evaluating and ensuring dataset quality in the image domain remain limited. This study investigates methods for systematically assessing image dataset quality and examines how various image quality factors influence model performance. Using the publicly available and relatively clean CIFAKE dataset, we identify common quality issues and quantify their impact on training. Building on these findings, we develop a pipeline that integrates two community-developed tools, CleanVision and Fastdup. We analyze their underlying mechanisms and introduce several enhancements, including automatic threshold selection to detect problematic images without manual tuning. Experimental results demonstrate that not all quality issues exert the same level of impact. While convolutional neural networks show resilience to certain distortions, they are particularly vulnerable to degradations that obscure critical visual features, such as blurring and severe downscaling. To assess the performance of existing tools and the effectiveness of our proposed enhancements, we formulate the detection of low-quality images as a binary classification task and use the F1 score as the evaluation metric. Our automatic thresholding method improves the F1 score from 0.6794 to 0.9468 under single perturbations and from 0.7447 to 0.8557 under dual perturbations. For near-duplicate detection, our deduplication strategy increases the F1 score from 0.4576 to 0.7928. These results underscore the effectiveness of our workflow and provide a foundation for advancing data quality assessment in image-based machine learning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Data-Centric Perspective on the Influence of Image Data Quality in Machine Learning Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

C3Net: Context-Contrast Network for Camouflaged Object Detection

MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection

Prompt-Conditioned FiLM and Multi-Scale Fusion on MedSigLIP for Low-Dose CT Qual...

Deep learning-based object detection of offshore platforms on Sentinel-1 Imagery...

Estimation of Segmental Longitudinal Strain in Transesophageal Echocardiography ...

Навигация