Enriching Knowledge Distillation with Intra-Class Contrastive Learning

2509.22053v1 cs.LG, cs.CV 2025-09-30
Авторы:

Hua Yuan, Ning Xu, Xin Geng, Yong Rui

Резюме на русском

## Контекст В области машинного обучения, техника знаний преподавания (knowledge distillation) позволяет студентским моделям улучшить свои результаты, используя дополнительные знания, полученные от более мощных преподавательских моделей. Однако существующие методы, целью которых является эффективное использование слабых сигналов в soft labels, недостаточно учитывают внутреннюю структуру классов. Внутри каждого класса существуют различные представления объектов, которые могут улучшить общую обучаемость студентской модели. Недостаток в учете этих внутренних разнообразий приводит к ограниченности в обучении моделей. Мотивируясь этим, предлагается методология, включающая intra-class contrastive loss в процесс обучения преподавательских моделей, чтобы усилить внутренние представления классов в soft labels. ## Метод Метод предлагаемой методологии состоит в введении intra-class contrastive loss во время обучения преподавательской модели. Этот подход нацелен на улучшение внутреннего разнообразия представлений внутри каждого класса. Однако в ходе экспериментов обнаружилось, что этот подход может привести к нестабильности в процессе обучения и замедлению конвергенции. Чтобы устранить эти проблемы, была внедрена margin loss, которая позволяет стабилизировать обучение и ускорить конвергенцию. Теоретическая обоснование проводилось для изучения влияния этого подхода на расстояния между представлениями внутри класса и между классами. Это подтвердило, что intra-class contrastive loss позволяет улучшить внутреннюю разнообразность представлений. ## Результаты Для проверки эффективности предложенного подхода проведены эксперименты с использованием нескольких датасетов и моделей. Результаты показали, что включение intra-class contrastive loss приводит к улучшению точности и общей обучаемости студентских моделей. Эти результаты были сравнены с традиционными методами, и показано, что новый подход дает более высокие результаты, особенно в ситуациях с ограниченным объемом обучающих данных. Это указывает на то, что включение intra-class contrastive loss в процесс дистилляции значительно улучшает общую эффективность модели. ## Значимость Предлагаемый подход может быть применен в различных областях, где необходимо улучшить точность моделей нейронных сетей, включая обработку естественных языков, распознавание изображений и анализ видео. Одним из основных преимуществ является улучшение внутренней разнообразности классов, что приводит к более гибким и точным моделям. Это также может привести к повышению эффективности обучения, особенно при ограниченных ресурсах. Будущие исследования могут направляться на расширение этого подхода на более сложные структ

Abstract

Since the advent of knowledge distillation, much research has focused on how the soft labels generated by the teacher model can be utilized effectively. Existing studies points out that the implicit knowledge within soft labels originates from the multi-view structure present in the data. Feature variations within samples of the same class allow the student model to generalize better by learning diverse representations. However, in existing distillation methods, teacher models predominantly adhere to ground-truth labels as targets, without considering the diverse representations within the same class. Therefore, we propose incorporating an intra-class contrastive loss during teacher training to enrich the intra-class information contained in soft labels. In practice, we find that intra-class loss causes instability in training and slows convergence. To mitigate these issues, margin loss is integrated into intra-class contrastive learning to improve the training stability and convergence speed. Simultaneously, we theoretically analyze the impact of this loss on the intra-class distances and inter-class distances. It has been proved that the intra-class contrastive loss can enrich the intra-class diversity. Experimental results demonstrate the effectiveness of the proposed method.

Ссылки и действия