The Role of Teacher Calibration in Knowledge Distillation

2508.20224v1 cs.LG, cs.AI, cs.CV 2025-08-30

Авторы:

Suyoung Kim, Seonguk Park, Junhoo Lee, Nojun Kwak

Резюме на русском

## Контекст Knowledge Distillation (KD) является эффективным методом сжатия моделей в сфере глубокого обучения, позволяющим передавать знания с большой модели (учителя) на меньшую (ученика). Несмотря на то, что KD доказал свою эффективность, понятия, которые влияют на улучшение производительности ученика, до сих пор не полностью поняты. Эта необъясненная природа KD создает мотивацию для поиска и исследования факторов, которые могут положительно сказаться на результатах. Наблюдение о корреляции между калибровочной ошибкой учителя и точностью ученика представляет собой ключевой момент в понимании этого процесса. Это открытие поднимает вопрос о важности калибровки учителя в рамках KD и позволяет открыть новые пути для повышения эффективности. ## Метод Мы предлагаем алгоритм, ориентированный на уменьшение калибровочной ошибки учителя, чтобы повысить качество передачи знаний. Наш подход включает в себя технические решения, направленные на устранение неточностей в прогнозировании учителя, чтобы улучшить качество представления для ученика. Мы используем модели с различными архитектурами и настраиваем их для разных задач, включая классификацию и детекцию. Наша методология гибкая и может быть легко интегрирована с существующими методами, чтобы повысить их производительность. ## Результаты Мы провели эксперименты на различных наборах данных и задачах, включая обычную классификацию изображений и задачи определения объектов. Наш алгоритм показал значительное улучшение точности ученика в сравнении с базовыми методами KD. Мы также проверили эффективность нашего подхода при использовании разных учителей и учеников, подтвердив, что наша методика работает в различных условиях. Наши результаты показали, что уменьшение калибровочной ошибки учителя значительно повышает качество обучения ученика. ## Значимость Наша работа имеет широкое применение в области моделей с глубоким обучением, где требуется эффективное сжатие моделей без существенного потери точности. Наш подход позволяет повысить качество работы ученика, используя простую модификацию учителя. Это приводит к более эффективному использованию ресурсов, что важно для приложений, где ресурсы ограничены. Мы также отмечаем, что наш метод может легко интегрироваться с другими современными методами KD, усиливая их результаты. Это открывает новые перспективы для повышения эффективности моделей в различных сферах, включая обработку изображений, текста и другие задачи глубокого обучения. ## Выводы Наши исследования показали, что калибровка учителя является ключевым фактором для эффективного KD. Мы предложили новый подход, который умень

Abstract

Knowledge Distillation (KD) has emerged as an effective model compression technique in deep learning, enabling the transfer of knowledge from a large teacher model to a compact student model. While KD has demonstrated significant success, it is not yet fully understood which factors contribute to improving the student's performance. In this paper, we reveal a strong correlation between the teacher's calibration error and the student's accuracy. Therefore, we claim that the calibration of the teacher model is an important factor for effective KD. Furthermore, we demonstrate that the performance of KD can be improved by simply employing a calibration method that reduces the teacher's calibration error. Our algorithm is versatile, demonstrating effectiveness across various tasks from classification to detection. Moreover, it can be easily integrated with existing state-of-the-art methods, consistently achieving superior performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The Role of Teacher Calibration in Knowledge Distillation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TV2TV: A Unified Framework for Interleaved Language and Video Generation

The Universal Weight Subspace Hypothesis

STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Gra...

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A...

First On-Orbit Demonstration of a Geospatial Foundation Model

Навигация