A Systematic Evaluation of Parameter-Efficient Fine-Tuning Methods for the Security of Code LLMs

2509.12649v1 cs.CR, cs.AI 2025-09-18
Авторы:

Kiho Lee, Jungkon Kim, Doowon Kim, Hyoungshick Kim

Резюме на русском

-------------------------------------------- ## Контекст -------------------------------------------- Large Language Models (LLMs) для кодирования, такие как CodeGen2, стали незаменимыми инструментами для ускорения процессов разработки программного обеспечения. Однако их частотное генерирование небезопасного кода становится серьезной угрозой для безопасности. Это делает необходимым развитие эффективных методов, которые бы снизили риск и повысили безопасность генерируемого кода. Одним из таких подходов является parameter-efficient fine-tuning (PEFT), который позволяет оптимизировать модели без изменения всех параметров. Этот подход показал свою эффективность в решении подобных проблем в других областях, но его применение к LLMs для кодирования еще не тщательно изучено. Наша исследовательская цель состоит в оценке и сравнении различных PEFT-методов, а также в изучении их влияния на безопасность генерируемого кода. -------------------------------------------- ## Метод -------------------------------------------- Мы проводили систематическую оценку семи методов PEFT, включая prompt-tuning, prefix-tuning, LoRA, Adapters, BitFit, Full-Model Fine-Tuning и Zero-Shot Prompting. Эти методы были применены к модели CodeGen2 16B для генерирования кода на Python и Java. Для оценки безопасности кода мы использовали Overall-Secure-Rate (OSR), который измеряет долю безопасного кода из всего генерируемого. Для улучшения безопасности мы также оптимизировали decoding strategies, включая sampling temperature. Для оценки устойчивости моделей к атакам мы применили TrojanPuzzle, оценивая их результаты на выявлении двух потенциальных угроз — CWE-79 (инъекция XSS) и CWE-502 (исполнение вредоносного кода). -------------------------------------------- ## Результаты -------------------------------------------- Наши эксперименты показали, что prompt-tuning является наиболее эффективным методом PEFT для улучшения безопасности генерируемого кода. Он достиг OSR 80.86% на CodeGen2 16B, что обеспечило 13.5-балльное улучшение по сравнению с базовым результатом 67.28%. Далее, при оптимизации decoding strategies с помощью sampling temperature, мы получили OSR 87.65%, что привело к снижению количества небезопасных кодов до примерно 203,700 сниппетов за миллион генерируемых сниппетов. TrojanPuzzle также подтвердило, что prompt и prefix tuning увеличивают устойчивость к Trojan-вредоносным кодам, особенно в случаях вроде CWE-79 и CWE-502. Эти результаты остались стабильными при перекрёстных экспериментах на Python и Java. -------------------------------------------- ## Значимость -------------------------------------------- Наша исследовательская работа имеет значительное значение для развития безопасных кодогенерирующих моделей. Мы показали, что PEFT может быть эффективным решением для улучшения безопасности LLMs, не требуя полного переучивания. Эти методы могут применяться в различных сферах, где безопасность кода является критичной, например в разработке банковских приложений, медицинских программ и систем управления инфраструктурой. Благодаря наш

Abstract

Code-generating Large Language Models (LLMs) significantly accelerate software development. However, their frequent generation of insecure code presents serious risks. We present a comprehensive evaluation of seven parameter-efficient fine-tuning (PEFT) techniques, demonstrating substantial gains in secure code generation without compromising functionality. Our research identifies prompt-tuning as the most effective PEFT method, achieving an 80.86% Overall-Secure-Rate on CodeGen2 16B, a 13.5-point improvement over the 67.28% baseline. Optimizing decoding strategies through sampling temperature further elevated security to 87.65%. This equates to a reduction of approximately 203,700 vulnerable code snippets per million generated. Moreover, prompt and prefix tuning increase robustness against poisoning attacks in our TrojanPuzzle evaluation, with strong performance against CWE-79 and CWE-502 attack vectors. Our findings generalize across Python and Java, confirming prompt-tuning's consistent effectiveness. This study provides essential insights and practical guidance for building more resilient software systems with LLMs.

Ссылки и действия