Intra-Cluster Mixup: An Effective Data Augmentation Technique for Complementary-Label Learning

2509.17971v1 cs.LG, cs.AI, cs.CV 2025-09-24

Авторы:

Tan-Ha Mai, Hsuan-Tien Lin

Резюме на русском

#### Контекст В области нейросетевых моделей существует значительный интерес к улучшению их обучения с использованием методов увеличения объема данных. Одним из этих методов является метод Mixup, который основывается на смешивании двух примеров с их метками. Тем не менее, целевые приложения не всегда подходят для использования этого метода напрямую. Одна из таких областей — подкласс weakly-supervised learning (WSL), а именно complementary-label learning (CLL). CLL — это форма WSL, при которой модели обучаются на основе ярлыков, указывающих классы, к которым относится пример, а не на стандартных метках. Этот подход привлекателен, так как сбор ярлыков-комплементарных знаков требует меньших затрат и энергии. Тем не менее, CLL сталкивается с рядом проблем, в том числе с генерируемым шумом примеров, что оказывает негативное влияние на модели. Это делает необходимым развитие методов, которые могут преодолеть этот шум и повысить качество моделей CLL. #### Метод Мы предлагаем метод Intra-Cluster Mixup (ICM), который отличается от стандартного Mixup тем, что синтезирует данные только из примеров, принадлежащих одному классу. Это позволяет уменьшить шум, связанный с тем, что примеры не принадлежат одному классу, и сохранить ценность CLL. Мы также выясняем, что Mixup в целом неэффективен для CLL из-за характера шума, но ICM может устранить эту проблему. Наша методика включает в себя следующие шаги: выбор примеров из одного класса, смешивание их смешанной меткой, и их использование вместе с оригинальными данными для обучения модели. Это приводит к улучшению точности модели и ее устойчивости к шумам. #### Результаты Мы провели эксперименты на двух типах данных: сбалансированных и несбалансированных. На MNIST, ICM показал увеличение точности на 30%, а на CIFAR — на 10%. Эти результаты подтверждают, что ICM позволяет улучшить модели CLL, даже в условиях недостатка данных. Мы также проанализировали различные аспекты ICM, такие как его влияние на шум, синтезированных примеров и его способность выделять значимые примеры в разных классах. Результаты показывают, что ICM способен эффективно работать в разных условиях, в том числе с предоставлением небольшого количества примеров. #### Значимость Метод ICM может применяться в широком кругу задач WSL, в том числе в сценариях, где данные недостаточно много или трудно получить полные метки. Одной из главных преимуществ ICM является его возможность улучшить качество моделей в условиях нестандартных меток. Это может иметь большое значение в сферах, где сбор полных меток требует огромных затрат, например, в области медицины, где отметь тысячи примеров

Abstract

In this paper, we investigate the challenges of complementary-label learning (CLL), a specialized form of weakly-supervised learning (WSL) where models are trained with labels indicating classes to which instances do not belong, rather than standard ordinary labels. This alternative supervision is appealing because collecting complementary labels is generally cheaper and less labor-intensive. Although most existing research in CLL emphasizes the development of novel loss functions, the potential of data augmentation in this domain remains largely underexplored. In this work, we uncover that the widely-used Mixup data augmentation technique is ineffective when directly applied to CLL. Through in-depth analysis, we identify that the complementary-label noise generated by Mixup negatively impacts the performance of CLL models. We then propose an improved technique called Intra-Cluster Mixup (ICM), which only synthesizes augmented data from nearby examples, to mitigate the noise effect. ICM carries the benefits of encouraging complementary label sharing of nearby examples, and leads to substantial performance improvements across synthetic and real-world labeled datasets. In particular, our wide spectrum of experimental results on both balanced and imbalanced CLL settings justifies the potential of ICM in allying with state-of-the-art CLL algorithms, achieving significant accuracy increases of 30% and 10% on MNIST and CIFAR datasets, respectively.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Intra-Cluster Mixup: An Effective Data Augmentation Technique for Complementary-Label Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TV2TV: A Unified Framework for Interleaved Language and Video Generation

The Universal Weight Subspace Hypothesis

STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Gra...

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A...

First On-Orbit Demonstration of a Geospatial Foundation Model

Навигация