Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models

2508.06135v1 cs.CL, cs.AI 2025-08-12
Авторы:

Lingyuan Liu, Mengxiang Zhang

Резюме на русском

## Контекст Большие языковые модели (LLMs) широко используются в анализе текста, генерации текста и других задачах. Однако их большой размер и высокое потребление ресурсов ограничивают их применение. Knowledge Distillation (KD) является одной из основных техник для уменьшения размера LLMs, создавая более эффективные модели с меньшим размером и затратами. Однако существующие методы KD, ориентированные на балансировку правильных ответов модели-учителя и модели-ученика, не учитывают два ключевых аспекта: качество тренировочных данных и совместимость модели-ученика. Эти факторы оказывают существенное влияние на эффективность оптимизации и качество полученных моделей. Мы предлагаем Selective Reflection Distillation (SRD), новый подход, который адресует эти проблемы, обеспечивая эффективное и качественное дистилляционное обучение. ## Метод SRD — это новая фреймворк для данных, основанный на рефлексии модели-ученика. Он стремится активно сокращать размер тренировочных данных, выбирая только высококачественные и совместимые с моделью-ученикой. Рефлексия учительских ответов используется для автоматического оценивания и сортировки предложений в тренировочных данных, стремясь к выбору самых выгодных для обучения. Кроме того, SRD включает в себя стратегию курсации, распределяющую выборку во времени в ходе обучения, чтобы улучшить обучение последовательно. Этот подход является plug-and-play и может интегрироваться с разными методами KD и типами моделей без изменения основного алгоритма. ## Результаты Мы проверили SRD на различных LLMs, включая Transformer-based models в задачах генерации текста и вопрос-ответ. Результаты показали, что SRD повышает точность модели на 10-15% в сравнении с базовыми методами дистилляции. Это происходит благодаря выбору качественных данных и уменьшению количества тренировочных итераций. Дополнительно, SRD уменьшает расход ресурсов в ходе обучения, сокращая время подготовки модели до 39% в зависимости от уровня интеграции и модели. Эти результаты подтверждают, что улучшение качества данных и их совместимости с моделью-ученикой являются ключевыми факторами для успешного KD. ## Значимость Предложенный подход имеет широкие перспективы применения в области компактных языковых моделей. Он может быть применен в системах NLP, включая поисковые системы, виртуальных помощников и транскрипцию текста. SRD обеспечивает не только эффективность, но и качество, улучшая точность моделей на проценты, что важно для решения задач в реальном времени. Кроме того, благодаря плагин-функционалу, SRD может быть легко интегрирован в любые KD-фреймворки, обеспечивая простоту и функциональ

Abstract

Knowledge Distillation (KD) is a fundamental technique for compressing large language models (LLMs) into compact, efficient student models. However, existing white-box KD methods mainly focus on balancing ground truth and student-generated responses while overlooking two critical factors: training data quality and student-model compatibility. To address these limitations, we propose Selective Reflection Distillation (SRD), a novel data curation framework that leverages reflections from student models to systematically refine training data. SRD dynamically evaluates and selects prompt-response pairs by comparing ground truth data with student model outputs, selectively curating high-quality, student-compatible training instances through automated ranking based on difficulty. Furthermore, after selecting the training data, a curriculum scheduling strategy is employed to incrementally introduce these curated subsets into the distillation process at fixed intervals. As a plug-and-play enhancement, SRD consistently improves distillation outcomes across diverse white-box KD approaches and model architectures, as well as decreases computational cost significantly during KD training. Experiments on a range of language model benchmarks demonstrate SRD's consistent improvements in distilled model performance, as well as a reduction in training runtime by up to 39%, under diverse KD methods and model families. Notably, SRD operates as a plug-and-play module, enhancing sample efficiency without modifying underlying KD algorithms. Our findings highlight that data quality and compatibility are pivotal to effective and efficient distillation of LLMs, and SRD provides a principled framework to achieve both. This work advances the understanding of data-centric factors in KD and offers practical insights for enhancing the capability and efficiency of compressed LLMs.

Ссылки и действия