Delta Knowledge Distillation for Large Language Models

2509.14526v1 cs.CL, cs.AI, cs.LG 2025-09-20
Авторы:

Yihan Cao, Yanbin Kang, Zhengming Xing, Ruijie Jiang

Резюме на русском

#### Контекст Современные модели естественного обучения моделируют знания сложными нейронными сетями, которые требуют больших ресурсов для обучения и работы. Для облегчения этих моделей используется техника знаний классификации (Knowledge Distillation, KD). Она позволяет передавать знания от большой модели-учителя (teacher) к меньшей модели-ученице (student). В контексте больших моделей естественного языка (LLM), метод минимизации количества приближения (KL-divergence) между распределениями выходов учителя и ученицы стал одним из стандартных подходов. Однако, при этом существует предположение, что выходные распределения учителя и ученицы должны иметь один и тот же оптимальный представительный пространство, что может быть неверно в реальных ситуациях. Это ограничение может привести к неэффективному обучению ученицы. Для решения этой проблемы предлагается Delta Knowledge Distillation (Delta-KD), что позволяет ученице аппроксимировать более точно оптимальное пространство знаний учителя. #### Метод Delta-KD является расширением токенного метода классификации знаний (token-level KD). Он применяет дополнительное преобразование, позволяющее ученице аппроксимировать не только распределение учителя, но и использовать шаг преобразования (Delta), который возникает в процессе супервизованного оптимизационного процесса учителя. Идея заключается в том, чтобы ученица не только запоминала распределение учителя, но и адаптировалась к представительному пространству, которое возникает в ходе обучения учителя. Этот подход учитывает различия в распределениях между учителем и ученицей и позволяет ученице более эффективно учиться на примере учителя. #### Результаты Проведенные эксперименты показывают, что Delta-KD существенно повышает производительность ученицы на задачах генерации текста, основанных на метрике ROUGE. Эти результаты показывают, что Delta-KD не только повышает точность генерации ученицы, но и сохраняет больше знаний учителя, чем традиционный подход токенов-KD. Это подтверждается сравнением результатов на нескольких датасетах, где Delta-KD показывает значительное преимущество по метрике ROUGE в сравнении с другими методами. #### Значимость Delta-KD может быть применено в различных областях, где необходимо масштабировать модели естественного языка, например, в области генерации текста, моделирования диалогов и анализа текста. Он предоставляет более эффективный способ передачи знаний от учителя к ученице, что делает модели более удобными для использования в реальных сценариях. Важное преимущество Delta-KD заключается в том, что он улучшает качество генерируемого текста без потери значительных знаний от учителя, что делает его выгодным для разработки мелких моделей, которые

Abstract

Knowledge distillation (KD) is a widely adopted approach for compressing large neural networks by transferring knowledge from a large teacher model to a smaller student model. In the context of large language models, token level KD, typically minimizing the KL divergence between student output distribution and teacher output distribution, has shown strong empirical performance. However, prior work assumes student output distribution and teacher output distribution share the same optimal representation space, a premise that may not hold in many cases. To solve this problem, we propose Delta Knowledge Distillation (Delta-KD), a novel extension of token level KD that encourages the student to approximate an optimal representation space by explicitly preserving the distributional shift Delta introduced during the teacher's supervised finetuning (SFT). Empirical results on ROUGE metrics demonstrate that Delta KD substantially improves student performance while preserving more of the teacher's knowledge.

Ссылки и действия