Membership and Memorization in LLM Knowledge Distillation

2508.07054v1 cs.LG, cs.AI 2025-08-13
Авторы:

Ziqi Zhang, Ali Shahin Shamsabadi, Hanxiao Lu, Yifeng Cai, Hamed Haddadi

Резюме на русском

#### Контекст В последние годы Large Language Models (LLMs) стали важной частью области машинного обучения, предлагая мощные средства для решения различных задач. Однако их высокая вычислительная сложность и потребление ресурсов ограничивают их применение, особенно на устройствах с ограниченными мощностями. Knowledge Distillation (KD), метод передачи знаний от "большого" мастера к "маленькому" ученику, представляется как эффективное решение для уменьшения требований к вычислительным мощностям. Однако существуют озабоченности по поводу того, что ученики могут приобрести не только знания, но и чувствительные данные знатока. Это особенно актуально, когда LLMs обучаются на частных или конфиденциальных данных. В данном исследовании мы рассмотрим, насколько эти риски восприимчивости присутствуют в различных методах знаний KD для LLMs, и оценим, насколько эти риски могут влиять на защиту персональной информации. #### Метод Мы рассмотрим шесть методов KD для LLMs, рассматривая их настройки инструкций, семь задач естественного языка, три семьи знатоков (GPT-2, LLAMA-2, OPT) и различные модели учеников. Для измерения чувствительности мы используем метрики, относящиеся к членству и запоминанию, которые позволяют определить, в какой степени модель ученика содержит чувствительную информацию из обучающих данных знатока. Мы также рассмотрим, как функции KD-объектива, данные для тренировки учеников и тип задач NLP влияют на эти чувствительности. Будет осуществляться тщательный анализ, показывая как зависимость чувствительности от конкретных моделей, так и различия в чувствительности между разными блоками модели ученика. #### Результаты Мы выявили, что все исследуемые методы KD передают чувствительность от знатока к ученику, но степень этого влияния различна. Например, риски членства и запоминания могут быть вызваны различными сторонами KD-стратегии, такими как функции KD-объектива, данные для тренировки учеников и типы задач NLP. Мы обнаружили, что некоторые методы KD приводят к более высокой чувствительности для каких-то задач, но не для других, что подчеркивает существующую неоднородность в рисках. Также, мы отметили, что чувствительность может различаться в разных блоках модели ученика, что может отразиться на ее общей производительности и безопасности. #### Значимость Наши результаты имеют значимость в различных областях, где защита чувствительной информации является ключевой проблемой. Мы показали, что существует возможность защиты чувствительных данных в процессе KD, что может иметь значительное значение для приложений в сферах здравоохранения, финансов и юриспруденции

Abstract

Recent advances in Knowledge Distillation (KD) aim to mitigate the high computational demands of Large Language Models (LLMs) by transferring knowledge from a large ''teacher'' to a smaller ''student'' model. However, students may inherit the teacher's privacy when the teacher is trained on private data. In this work, we systematically characterize and investigate membership and memorization privacy risks inherent in six LLM KD techniques. Using instruction-tuning settings that span seven NLP tasks, together with three teacher model families (GPT-2, LLAMA-2, and OPT), and various size student models, we demonstrate that all existing LLM KD approaches carry membership and memorization privacy risks from the teacher to its students. However, the extent of privacy risks varies across different KD techniques. We systematically analyse how key LLM KD components (KD objective functions, student training data and NLP tasks) impact such privacy risks. We also demonstrate a significant disagreement between memorization and membership privacy risks of LLM KD techniques. Finally, we characterize per-block privacy risk and demonstrate that the privacy risk varies across different blocks by a large margin.

Ссылки и действия