Enriching Knowledge Distillation with Intra-Class Contrastive Learning
2509.22053v1
cs.LG, cs.CV
2025-09-30
Авторы:
Hua Yuan, Ning Xu, Xin Geng, Yong Rui
Резюме на русском
## Контекст
В области машинного обучения, техника знаний преподавания (knowledge distillation) позволяет студентским моделям улучшить свои результаты, используя дополнительные знания, полученные от более мощных преподавательских моделей. Однако существующие методы, целью которых является эффективное использование слабых сигналов в soft labels, недостаточно учитывают внутреннюю структуру классов. Внутри каждого класса существуют различные представления объектов, которые могут улучшить общую обучаемость студентской модели. Недостаток в учете этих внутренних разнообразий приводит к ограниченности в обучении моделей. Мотивируясь этим, предлагается методология, включающая intra-class contrastive loss в процесс обучения преподавательских моделей, чтобы усилить внутренние представления классов в soft labels.
## Метод
Метод предлагаемой методологии состоит в введении intra-class contrastive loss во время обучения преподавательской модели. Этот подход нацелен на улучшение внутреннего разнообразия представлений внутри каждого класса. Однако в ходе экспериментов обнаружилось, что этот подход может привести к нестабильности в процессе обучения и замедлению конвергенции. Чтобы устранить эти проблемы, была внедрена margin loss, которая позволяет стабилизировать обучение и ускорить конвергенцию. Теоретическая обоснование проводилось для изучения влияния этого подхода на расстояния между представлениями внутри класса и между классами. Это подтвердило, что intra-class contrastive loss позволяет улучшить внутреннюю разнообразность представлений.
## Результаты
Для проверки эффективности предложенного подхода проведены эксперименты с использованием нескольких датасетов и моделей. Результаты показали, что включение intra-class contrastive loss приводит к улучшению точности и общей обучаемости студентских моделей. Эти результаты были сравнены с традиционными методами, и показано, что новый подход дает более высокие результаты, особенно в ситуациях с ограниченным объемом обучающих данных. Это указывает на то, что включение intra-class contrastive loss в процесс дистилляции значительно улучшает общую эффективность модели.
## Значимость
Предлагаемый подход может быть применен в различных областях, где необходимо улучшить точность моделей нейронных сетей, включая обработку естественных языков, распознавание изображений и анализ видео. Одним из основных преимуществ является улучшение внутренней разнообразности классов, что приводит к более гибким и точным моделям. Это также может привести к повышению эффективности обучения, особенно при ограниченных ресурсах. Будущие исследования могут направляться на расширение этого подхода на более сложные структ
Abstract
Since the advent of knowledge distillation, much research has focused on how
the soft labels generated by the teacher model can be utilized effectively.
Existing studies points out that the implicit knowledge within soft labels
originates from the multi-view structure present in the data. Feature
variations within samples of the same class allow the student model to
generalize better by learning diverse representations. However, in existing
distillation methods, teacher models predominantly adhere to ground-truth
labels as targets, without considering the diverse representations within the
same class. Therefore, we propose incorporating an intra-class contrastive loss
during teacher training to enrich the intra-class information contained in soft
labels. In practice, we find that intra-class loss causes instability in
training and slows convergence. To mitigate these issues, margin loss is
integrated into intra-class contrastive learning to improve the training
stability and convergence speed. Simultaneously, we theoretically analyze the
impact of this loss on the intra-class distances and inter-class distances. It
has been proved that the intra-class contrastive loss can enrich the
intra-class diversity. Experimental results demonstrate the effectiveness of
the proposed method.
Ссылки и действия
Дополнительные ресурсы: