Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

2509.13755v1 cs.SE, cs.AI, cs.CR 2025-09-19
Авторы:

Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo

Резюме на русском

## Контекст Код языковые модели (Code Language Models, CLMs) набирают популярность в сфере программирования, позволяя выполнять такие задачи, как генерация и сводка кода. Однако недавние исследования показали, что эти модели могут хранить в своем знании конфиденциальную информацию, содержащуюся в обучающих данных. Это становится возможным благодаря их способности воспроизводить такие данные при определенных запросах. Адресуя эту проблему, ранее предлагались способы, такие как удаление дубликатов из обучающих данных и применение методов частичной приватности, но эти методы требуют полной переучивания модели, что является ресурсоемким и дорогостоящим. Наша работа посвящена изучению возможности эффективного и экономичного удаления конфиденциальных данных из CLMs с помощью метода машинного неучения (machine unlearning). ## Метод Мы разработали многоэтапную методологию для изучения меморизации конфиденциальных данных в моделях CLMs. Сначала определили риски меморизации, связанные с конкретными участками данных, и сформировали высокорискованный набор данных, содержащий 50 000 примеров, требующих удаления. Затем рассмотрели два популярных метода машинного неучения, основанных на градиентном подъеме, и ввёл CodeEraser - расширенную модификацию, которая удаляет выбранные куски кода, содержащие конфиденциальную информацию, при этом сохраняя целостность и функциональность остальных частей модели. ## Результаты Для оценки эффективности нашего подхода провели тщательные эксперименты на трех моделях CLM: CodeParrot, CodeGen-Mono и Qwen2.5-Coder. Мы измерили уровень удаления конфиденциальной информации, а также проверяли неизменность функциональности моделей после неучения. Наши результаты показали, что CodeEraser эффективно удаляет целевую конфиденциальную информацию, при этом сохраняя высокую производительность моделей. ## Значимость Метод CodeEraser может использоваться в различных приложениях, где необходимо обеспечить безопасность и конфиденциальность данных, такие как разработка программного обеспечения, диагностика и устранение неисправностей. Он предоставляет преимущества в виде экономии ресурсов в плане вычислений по сравнению с пересборкой моделей. Наши работы могут повлиять на развитие безопасности и приватности моделей глубокого обучения в сфере программирования. ## Выводы Мы представили CodeEraser - первый подход к удалению конфиденциальной информации из CLMs через машинное неучение, без необходимости полной переучивания модели. Наши эксперименты подтвердили высокую эффективность и экономичность этого подхода. Мы планируем продолжать работу в области неучения и применения этих м

Abstract

While Code Language Models (CLMs) have demonstrated superior performance in software engineering tasks such as code generation and summarization, recent empirical studies reveal a critical privacy vulnerability: these models exhibit unintended memorization of sensitive training data, enabling verbatim reproduction of confidential information when specifically prompted. To address this issue, several approaches, including training data de-duplication and differential privacy augmentation, have been proposed. However, these methods require full-model retraining for deployed CLMs, which incurs substantial computational costs. In this paper, we aim to answer the following research question: Can sensitive information memorized by CLMs be erased effectively and efficiently? We conduct a pioneering investigation into erasing sensitive memorization in CLMs through machine unlearning - a post-hoc modification method that removes specific information from trained models without requiring full retraining. Specifically, we first quantify the memorization risks of sensitive data within CLM training datasets and curate a high-risk dataset of 50,000 sensitive memorized samples as unlearning targets. We study two widely used gradient ascent-based unlearning approaches: the vanilla and constraint-based methods, and introduce CodeEraser, an advanced variant that selectively unlearns sensitive memorized segments in code while preserving the structural integrity and functional correctness of the surrounding code. Extensive experiments on three families of CLMs, i.e., CodeParrot, CodeGen-Mono, and Qwen2.5-Coder, validate the effectiveness and efficiency of CodeEraser in erasing targeted sensitive memorization while maintaining model utility.

Ссылки и действия

Связанные статьи

Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven ...

## Контекст Многочисленные проблемы безопасности в системах, таких как Интернет вещей (IoT), мобильные платформы и автом...

2025-09-26