An Empirical Study of Knowledge Distillation for Code Understanding Tasks
2508.15423v1
cs.SE, cs.AI
2025-08-23
Авторы:
Ruiqi Wang, Zezhou Yang, Cuiyun Gao, Xin Xia, Qing Liao
Резюме на русском
## Контекст
Появление предварительно обученных языковых моделей (PLMs) ознаменовало революцию в области код-understandинга. Однако их развертывание в больших системах сталкивается с проблемами, такими как высокий потребление ресурсов и медленный запуск, что ограничивает эффективность их применения. Благодаря этому, технология knowledge distillation (KD) привлекла внимание как промежуточный шаг между высокой моделью (teacher) и компактной моделью (student). Ее мотивация заключается в том, чтобы сократить размер модели и обеспечить быстродействие, не теряя качества. Хотя KD показал себя в NLP и компьютерном зрении, его потенциал в код-understanding-задачах остается нерешенным. Задача исследования — изучить KD в этой области, определить эффективные методы и достижения.
## Метод
Исследование основывается на двух типах KD-методов: logit-based и feature-based. Эксперименты проводятся с 8 студентских моделей и двумя teacher-PLMs из различных источников. Задачи включают обнаружение токенов, классификацию и предсказание синтаксиса. Набор данных включает обучающие и тестовые данные из реальных проектов. Для оценки KD эффективности используются метрики, такие как accuracy, F1-score и inference time. Отчет содержит также анализ размера модели и производительности.
## Результаты
Результаты показывают, что KD оказался эффективным для улучшения студентских моделей. Например, feature-based KD позволил уменьшить размер модели до 5%, сохранив до 98% производительности teacher PLM. Особое внимание уделялось влиянию архитектурных различий между teacher и student. Наблюдался тот факт, что близость архитектур не всегда приводит к лучшим результатам. В целом, KD в code understanding-задачах демонстрирует высокую эффективность, даже при использовании простой студентской модели.
## Значимость
Исследование имеет значительные применения в стандартизации моделей, где необходимо уменьшить потребление ресурсов, но сохранить высокое качество. Оно открывает новые возможности для развертывания PLMs в реальных приложениях, таких как IDEs, системы контроля версий или мобильные приложения. Это позволяет лучше воспринимать PLMs в реальном времени. Будущие исследования могут сосредоточиться на доработке feature-based KD, исследовании влияния архитектур и расширении KD на другие сферы, такие как multimodal-модели и системы роботов.
## Выводы
Исследование показало, что KD является эффективным методом для компрессии PLMs в code understanding-задачах. Feature-based KD оказался самым эффективным методом, обеспечивая лучшие результаты с минимальными модельными размерами. Несмотря на прогресс, проблемы с гибкостью моделей и архитектурными решениями остаются открытыми. Да
Abstract
Pre-trained language models (PLMs) have emerged as powerful tools for code
understanding. However, deploying these PLMs in large-scale applications faces
practical challenges due to their computational intensity and inference
latency. Knowledge distillation (KD), a promising model compression and
acceleration technique, addresses these limitations by transferring knowledge
from large teacher models to compact student models, enabling efficient
inference while preserving most of the teacher models' capabilities. While this
technique has shown remarkable success in natural language processing and
computer vision domains, its potential for code understanding tasks remains
largely underexplored.
In this paper, we systematically investigate the effectiveness and usage of
KD in code understanding tasks. Our study encompasses two popular types of KD
methods, i.e., logit-based and feature-based KD methods, experimenting across
eight student models and two teacher PLMs from different domains on three
downstream tasks. The experimental results indicate that KD consistently offers
notable performance boosts across student models with different sizes compared
with standard fine-tuning. Notably, code-specific PLM demonstrates better
effectiveness as the teacher model. Among all KD methods, the latest
feature-based KD methods exhibit superior performance, enabling student models
to retain up to 98% teacher performance with merely 5% parameters. Regarding
student architecture, our experiments reveal that similarity with teacher
architecture does not necessarily lead to better performance. We further
discuss the efficiency and behaviors in the KD process and inference, summarize
the implications of findings, and identify promising future directions.
Ссылки и действия
Дополнительные ресурсы: