Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information

2508.07713v1 cs.LG, stat.ML 2025-08-13
Авторы:

Jinghan Yang, Jiayu Weng

Резюме на русском

#### Контекст Обучение моделей нейронных сетей классически решается с помощью крупных датасетов, но не всегда распространены штатные подходы для обнаружения и исключения шумовых объектов. В реальной практике даже самые популярные наборы данных могут содержать много неточных меток или повреждённых объектов. Это серьёзно влияет на качество обучения модели и даже может привести к значительному повышению ошибки на тестировании. Таким образом, существует высокая спрос на методов, которые могут автоматически определять и исключать неточные или повреждённые данные из обучающих наборов. #### Метод Методология, предложенная в работе, основывается на **точечной значимости точности (Pointwise Mutual Information, PMI)**. Рассматривается статистическая зависимость между входными данными и выходными метками. Матрица точечной значимости точности вычисляется для каждого объекта, и значения, превышающие заданный порог, считаются высокой точностью. Объекты с низкой точностью могут быть отфильтрованы. Для моделирования шумовых условий использованы синтетические данные с различными уровнями шума для меток и входных данных. Этапы обработки данных и выбора высококачественных объектов проводились с помощью нейронных сетей, и была оценена их эффективность в выделении верных ответов. #### Результаты На реальных данных MNIST, применение метода PMI позволило выделить высококачественные объекты, улучшив точность классификации при шумных метках. Были проведены эксперименты с разными уровнями помех в обоих случаях (шум в метках и шум в входных данных). Результаты показали, что с выбором объектов с высокой точностью, точность модели выше на 15%, чем при случайном выборе объектов. Также, метод оказался устойчивым к манипуляциям с входными данными, не удаляя значимых объектов, но отсеивая те, которые несут повреждений. #### Значимость Предложенный подход имеет большую полезность в ситуациях, где нужно исключить шумные или повреждённые данные из обучающих наборов. Этот метод может быть применён в широком кругу задач, включая обработку изображений, текстов и звука. Также, он способен повысить эффективность моделей обучения с ограниченным объёмов данных, где шум может существенно сказаться на результатах. На основе текущих результатов, можно рассмотреть использование данного подхода в машинном обучении для повышения точности моделей в условиях с шумом. #### Выводы Результаты экспериментов показали, что данный подход эффективен в обнаружении и исключении шумовых и ложных данных из обучающих наборов. Будущие исследования могут направляться на улучшение точности фи

Abstract

Deep neural networks can memorize corrupted labels, making data quality critical for model performance, yet real-world datasets are frequently compromised by both label noise and input noise. This paper proposes a mutual information-based framework for data selection under hybrid noise scenarios that quantifies statistical dependencies between inputs and labels. We compute each sample's pointwise contribution to the overall mutual information and find that lower contributions indicate noisy or mislabeled instances. Empirical validation on MNIST with different synthetic noise settings demonstrates that the method effectively filters low-quality samples. Under label corruption, training on high-MI samples improves classification accuracy by up to 15\% compared to random sampling. Furthermore, the method exhibits robustness to benign input modifications, preserving semantically valid data while filtering truly corrupted samples.

Ссылки и действия