Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information
2508.07713v1
cs.LG, stat.ML
2025-08-13
Авторы:
Jinghan Yang, Jiayu Weng
Резюме на русском
#### Контекст
Обучение моделей нейронных сетей классически решается с помощью крупных датасетов, но не всегда распространены штатные подходы для обнаружения и исключения шумовых объектов. В реальной практике даже самые популярные наборы данных могут содержать много неточных меток или повреждённых объектов. Это серьёзно влияет на качество обучения модели и даже может привести к значительному повышению ошибки на тестировании. Таким образом, существует высокая спрос на методов, которые могут автоматически определять и исключать неточные или повреждённые данные из обучающих наборов.
#### Метод
Методология, предложенная в работе, основывается на **точечной значимости точности (Pointwise Mutual Information, PMI)**. Рассматривается статистическая зависимость между входными данными и выходными метками. Матрица точечной значимости точности вычисляется для каждого объекта, и значения, превышающие заданный порог, считаются высокой точностью. Объекты с низкой точностью могут быть отфильтрованы. Для моделирования шумовых условий использованы синтетические данные с различными уровнями шума для меток и входных данных. Этапы обработки данных и выбора высококачественных объектов проводились с помощью нейронных сетей, и была оценена их эффективность в выделении верных ответов.
#### Результаты
На реальных данных MNIST, применение метода PMI позволило выделить высококачественные объекты, улучшив точность классификации при шумных метках. Были проведены эксперименты с разными уровнями помех в обоих случаях (шум в метках и шум в входных данных). Результаты показали, что с выбором объектов с высокой точностью, точность модели выше на 15%, чем при случайном выборе объектов. Также, метод оказался устойчивым к манипуляциям с входными данными, не удаляя значимых объектов, но отсеивая те, которые несут повреждений.
#### Значимость
Предложенный подход имеет большую полезность в ситуациях, где нужно исключить шумные или повреждённые данные из обучающих наборов. Этот метод может быть применён в широком кругу задач, включая обработку изображений, текстов и звука. Также, он способен повысить эффективность моделей обучения с ограниченным объёмов данных, где шум может существенно сказаться на результатах. На основе текущих результатов, можно рассмотреть использование данного подхода в машинном обучении для повышения точности моделей в условиях с шумом.
#### Выводы
Результаты экспериментов показали, что данный подход эффективен в обнаружении и исключении шумовых и ложных данных из обучающих наборов. Будущие исследования могут направляться на улучшение точности фи
Abstract
Deep neural networks can memorize corrupted labels, making data quality
critical for model performance, yet real-world datasets are frequently
compromised by both label noise and input noise. This paper proposes a mutual
information-based framework for data selection under hybrid noise scenarios
that quantifies statistical dependencies between inputs and labels. We compute
each sample's pointwise contribution to the overall mutual information and find
that lower contributions indicate noisy or mislabeled instances. Empirical
validation on MNIST with different synthetic noise settings demonstrates that
the method effectively filters low-quality samples. Under label corruption,
training on high-MI samples improves classification accuracy by up to 15\%
compared to random sampling. Furthermore, the method exhibits robustness to
benign input modifications, preserving semantically valid data while filtering
truly corrupted samples.
Ссылки и действия
Дополнительные ресурсы: