Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models
2508.06135v1
cs.CL, cs.AI
2025-08-12
Авторы:
Lingyuan Liu, Mengxiang Zhang
Резюме на русском
## Контекст
Большие языковые модели (LLMs) широко используются в анализе текста, генерации текста и других задачах. Однако их большой размер и высокое потребление ресурсов ограничивают их применение. Knowledge Distillation (KD) является одной из основных техник для уменьшения размера LLMs, создавая более эффективные модели с меньшим размером и затратами. Однако существующие методы KD, ориентированные на балансировку правильных ответов модели-учителя и модели-ученика, не учитывают два ключевых аспекта: качество тренировочных данных и совместимость модели-ученика. Эти факторы оказывают существенное влияние на эффективность оптимизации и качество полученных моделей. Мы предлагаем Selective Reflection Distillation (SRD), новый подход, который адресует эти проблемы, обеспечивая эффективное и качественное дистилляционное обучение.
## Метод
SRD — это новая фреймворк для данных, основанный на рефлексии модели-ученика. Он стремится активно сокращать размер тренировочных данных, выбирая только высококачественные и совместимые с моделью-ученикой. Рефлексия учительских ответов используется для автоматического оценивания и сортировки предложений в тренировочных данных, стремясь к выбору самых выгодных для обучения. Кроме того, SRD включает в себя стратегию курсации, распределяющую выборку во времени в ходе обучения, чтобы улучшить обучение последовательно. Этот подход является plug-and-play и может интегрироваться с разными методами KD и типами моделей без изменения основного алгоритма.
## Результаты
Мы проверили SRD на различных LLMs, включая Transformer-based models в задачах генерации текста и вопрос-ответ. Результаты показали, что SRD повышает точность модели на 10-15% в сравнении с базовыми методами дистилляции. Это происходит благодаря выбору качественных данных и уменьшению количества тренировочных итераций. Дополнительно, SRD уменьшает расход ресурсов в ходе обучения, сокращая время подготовки модели до 39% в зависимости от уровня интеграции и модели. Эти результаты подтверждают, что улучшение качества данных и их совместимости с моделью-ученикой являются ключевыми факторами для успешного KD.
## Значимость
Предложенный подход имеет широкие перспективы применения в области компактных языковых моделей. Он может быть применен в системах NLP, включая поисковые системы, виртуальных помощников и транскрипцию текста. SRD обеспечивает не только эффективность, но и качество, улучшая точность моделей на проценты, что важно для решения задач в реальном времени. Кроме того, благодаря плагин-функционалу, SRD может быть легко интегрирован в любые KD-фреймворки, обеспечивая простоту и функциональ
Abstract
Knowledge Distillation (KD) is a fundamental technique for compressing large
language models (LLMs) into compact, efficient student models. However,
existing white-box KD methods mainly focus on balancing ground truth and
student-generated responses while overlooking two critical factors: training
data quality and student-model compatibility. To address these limitations, we
propose Selective Reflection Distillation (SRD), a novel data curation
framework that leverages reflections from student models to systematically
refine training data. SRD dynamically evaluates and selects prompt-response
pairs by comparing ground truth data with student model outputs, selectively
curating high-quality, student-compatible training instances through automated
ranking based on difficulty. Furthermore, after selecting the training data, a
curriculum scheduling strategy is employed to incrementally introduce these
curated subsets into the distillation process at fixed intervals. As a
plug-and-play enhancement, SRD consistently improves distillation outcomes
across diverse white-box KD approaches and model architectures, as well as
decreases computational cost significantly during KD training. Experiments on a
range of language model benchmarks demonstrate SRD's consistent improvements in
distilled model performance, as well as a reduction in training runtime by up
to 39%, under diverse KD methods and model families. Notably, SRD operates as a
plug-and-play module, enhancing sample efficiency without modifying underlying
KD algorithms. Our findings highlight that data quality and compatibility are
pivotal to effective and efficient distillation of LLMs, and SRD provides a
principled framework to achieve both. This work advances the understanding of
data-centric factors in KD and offers practical insights for enhancing the
capability and efficiency of compressed LLMs.
Ссылки и действия
Дополнительные ресурсы: