Intra-Cluster Mixup: An Effective Data Augmentation Technique for Complementary-Label Learning
2509.17971v1
cs.LG, cs.AI, cs.CV
2025-09-24
Авторы:
Tan-Ha Mai, Hsuan-Tien Lin
Резюме на русском
#### Контекст
В области нейросетевых моделей существует значительный интерес к улучшению их обучения с использованием методов увеличения объема данных. Одним из этих методов является метод Mixup, который основывается на смешивании двух примеров с их метками. Тем не менее, целевые приложения не всегда подходят для использования этого метода напрямую. Одна из таких областей — подкласс weakly-supervised learning (WSL), а именно complementary-label learning (CLL). CLL — это форма WSL, при которой модели обучаются на основе ярлыков, указывающих классы, к которым относится пример, а не на стандартных метках. Этот подход привлекателен, так как сбор ярлыков-комплементарных знаков требует меньших затрат и энергии. Тем не менее, CLL сталкивается с рядом проблем, в том числе с генерируемым шумом примеров, что оказывает негативное влияние на модели. Это делает необходимым развитие методов, которые могут преодолеть этот шум и повысить качество моделей CLL.
#### Метод
Мы предлагаем метод Intra-Cluster Mixup (ICM), который отличается от стандартного Mixup тем, что синтезирует данные только из примеров, принадлежащих одному классу. Это позволяет уменьшить шум, связанный с тем, что примеры не принадлежат одному классу, и сохранить ценность CLL. Мы также выясняем, что Mixup в целом неэффективен для CLL из-за характера шума, но ICM может устранить эту проблему. Наша методика включает в себя следующие шаги: выбор примеров из одного класса, смешивание их смешанной меткой, и их использование вместе с оригинальными данными для обучения модели. Это приводит к улучшению точности модели и ее устойчивости к шумам.
#### Результаты
Мы провели эксперименты на двух типах данных: сбалансированных и несбалансированных. На MNIST, ICM показал увеличение точности на 30%, а на CIFAR — на 10%. Эти результаты подтверждают, что ICM позволяет улучшить модели CLL, даже в условиях недостатка данных. Мы также проанализировали различные аспекты ICM, такие как его влияние на шум, синтезированных примеров и его способность выделять значимые примеры в разных классах. Результаты показывают, что ICM способен эффективно работать в разных условиях, в том числе с предоставлением небольшого количества примеров.
#### Значимость
Метод ICM может применяться в широком кругу задач WSL, в том числе в сценариях, где данные недостаточно много или трудно получить полные метки. Одной из главных преимуществ ICM является его возможность улучшить качество моделей в условиях нестандартных меток. Это может иметь большое значение в сферах, где сбор полных меток требует огромных затрат, например, в области медицины, где отметь тысячи примеров
Abstract
In this paper, we investigate the challenges of complementary-label learning
(CLL), a specialized form of weakly-supervised learning (WSL) where models are
trained with labels indicating classes to which instances do not belong, rather
than standard ordinary labels. This alternative supervision is appealing
because collecting complementary labels is generally cheaper and less
labor-intensive. Although most existing research in CLL emphasizes the
development of novel loss functions, the potential of data augmentation in this
domain remains largely underexplored. In this work, we uncover that the
widely-used Mixup data augmentation technique is ineffective when directly
applied to CLL. Through in-depth analysis, we identify that the
complementary-label noise generated by Mixup negatively impacts the performance
of CLL models. We then propose an improved technique called Intra-Cluster Mixup
(ICM), which only synthesizes augmented data from nearby examples, to mitigate
the noise effect. ICM carries the benefits of encouraging complementary label
sharing of nearby examples, and leads to substantial performance improvements
across synthetic and real-world labeled datasets. In particular, our wide
spectrum of experimental results on both balanced and imbalanced CLL settings
justifies the potential of ICM in allying with state-of-the-art CLL algorithms,
achieving significant accuracy increases of 30% and 10% on MNIST and CIFAR
datasets, respectively.
Ссылки и действия
Дополнительные ресурсы: