An Empirical Study of Knowledge Distillation for Code Understanding Tasks

2508.15423v1 cs.SE, cs.AI 2025-08-23
Авторы:

Ruiqi Wang, Zezhou Yang, Cuiyun Gao, Xin Xia, Qing Liao

Резюме на русском

## Контекст Появление предварительно обученных языковых моделей (PLMs) ознаменовало революцию в области код-understandинга. Однако их развертывание в больших системах сталкивается с проблемами, такими как высокий потребление ресурсов и медленный запуск, что ограничивает эффективность их применения. Благодаря этому, технология knowledge distillation (KD) привлекла внимание как промежуточный шаг между высокой моделью (teacher) и компактной моделью (student). Ее мотивация заключается в том, чтобы сократить размер модели и обеспечить быстродействие, не теряя качества. Хотя KD показал себя в NLP и компьютерном зрении, его потенциал в код-understanding-задачах остается нерешенным. Задача исследования — изучить KD в этой области, определить эффективные методы и достижения. ## Метод Исследование основывается на двух типах KD-методов: logit-based и feature-based. Эксперименты проводятся с 8 студентских моделей и двумя teacher-PLMs из различных источников. Задачи включают обнаружение токенов, классификацию и предсказание синтаксиса. Набор данных включает обучающие и тестовые данные из реальных проектов. Для оценки KD эффективности используются метрики, такие как accuracy, F1-score и inference time. Отчет содержит также анализ размера модели и производительности. ## Результаты Результаты показывают, что KD оказался эффективным для улучшения студентских моделей. Например, feature-based KD позволил уменьшить размер модели до 5%, сохранив до 98% производительности teacher PLM. Особое внимание уделялось влиянию архитектурных различий между teacher и student. Наблюдался тот факт, что близость архитектур не всегда приводит к лучшим результатам. В целом, KD в code understanding-задачах демонстрирует высокую эффективность, даже при использовании простой студентской модели. ## Значимость Исследование имеет значительные применения в стандартизации моделей, где необходимо уменьшить потребление ресурсов, но сохранить высокое качество. Оно открывает новые возможности для развертывания PLMs в реальных приложениях, таких как IDEs, системы контроля версий или мобильные приложения. Это позволяет лучше воспринимать PLMs в реальном времени. Будущие исследования могут сосредоточиться на доработке feature-based KD, исследовании влияния архитектур и расширении KD на другие сферы, такие как multimodal-модели и системы роботов. ## Выводы Исследование показало, что KD является эффективным методом для компрессии PLMs в code understanding-задачах. Feature-based KD оказался самым эффективным методом, обеспечивая лучшие результаты с минимальными модельными размерами. Несмотря на прогресс, проблемы с гибкостью моделей и архитектурными решениями остаются открытыми. Да

Abstract

Pre-trained language models (PLMs) have emerged as powerful tools for code understanding. However, deploying these PLMs in large-scale applications faces practical challenges due to their computational intensity and inference latency. Knowledge distillation (KD), a promising model compression and acceleration technique, addresses these limitations by transferring knowledge from large teacher models to compact student models, enabling efficient inference while preserving most of the teacher models' capabilities. While this technique has shown remarkable success in natural language processing and computer vision domains, its potential for code understanding tasks remains largely underexplored. In this paper, we systematically investigate the effectiveness and usage of KD in code understanding tasks. Our study encompasses two popular types of KD methods, i.e., logit-based and feature-based KD methods, experimenting across eight student models and two teacher PLMs from different domains on three downstream tasks. The experimental results indicate that KD consistently offers notable performance boosts across student models with different sizes compared with standard fine-tuning. Notably, code-specific PLM demonstrates better effectiveness as the teacher model. Among all KD methods, the latest feature-based KD methods exhibit superior performance, enabling student models to retain up to 98% teacher performance with merely 5% parameters. Regarding student architecture, our experiments reveal that similarity with teacher architecture does not necessarily lead to better performance. We further discuss the efficiency and behaviors in the KD process and inference, summarize the implications of findings, and identify promising future directions.

Ссылки и действия