A Systematic Evaluation of Parameter-Efficient Fine-Tuning Methods for the Security of Code LLMs
2509.12649v1
cs.CR, cs.AI
2025-09-18
Авторы:
Kiho Lee, Jungkon Kim, Doowon Kim, Hyoungshick Kim
Резюме на русском
--------------------------------------------
## Контекст
--------------------------------------------
Large Language Models (LLMs) для кодирования, такие как CodeGen2, стали незаменимыми инструментами для ускорения процессов разработки программного обеспечения. Однако их частотное генерирование небезопасного кода становится серьезной угрозой для безопасности. Это делает необходимым развитие эффективных методов, которые бы снизили риск и повысили безопасность генерируемого кода. Одним из таких подходов является parameter-efficient fine-tuning (PEFT), который позволяет оптимизировать модели без изменения всех параметров. Этот подход показал свою эффективность в решении подобных проблем в других областях, но его применение к LLMs для кодирования еще не тщательно изучено. Наша исследовательская цель состоит в оценке и сравнении различных PEFT-методов, а также в изучении их влияния на безопасность генерируемого кода.
--------------------------------------------
## Метод
--------------------------------------------
Мы проводили систематическую оценку семи методов PEFT, включая prompt-tuning, prefix-tuning, LoRA, Adapters, BitFit, Full-Model Fine-Tuning и Zero-Shot Prompting. Эти методы были применены к модели CodeGen2 16B для генерирования кода на Python и Java. Для оценки безопасности кода мы использовали Overall-Secure-Rate (OSR), который измеряет долю безопасного кода из всего генерируемого. Для улучшения безопасности мы также оптимизировали decoding strategies, включая sampling temperature. Для оценки устойчивости моделей к атакам мы применили TrojanPuzzle, оценивая их результаты на выявлении двух потенциальных угроз — CWE-79 (инъекция XSS) и CWE-502 (исполнение вредоносного кода).
--------------------------------------------
## Результаты
--------------------------------------------
Наши эксперименты показали, что prompt-tuning является наиболее эффективным методом PEFT для улучшения безопасности генерируемого кода. Он достиг OSR 80.86% на CodeGen2 16B, что обеспечило 13.5-балльное улучшение по сравнению с базовым результатом 67.28%. Далее, при оптимизации decoding strategies с помощью sampling temperature, мы получили OSR 87.65%, что привело к снижению количества небезопасных кодов до примерно 203,700 сниппетов за миллион генерируемых сниппетов. TrojanPuzzle также подтвердило, что prompt и prefix tuning увеличивают устойчивость к Trojan-вредоносным кодам, особенно в случаях вроде CWE-79 и CWE-502. Эти результаты остались стабильными при перекрёстных экспериментах на Python и Java.
--------------------------------------------
## Значимость
--------------------------------------------
Наша исследовательская работа имеет значительное значение для развития безопасных кодогенерирующих моделей. Мы показали, что PEFT может быть эффективным решением для улучшения безопасности LLMs, не требуя полного переучивания. Эти методы могут применяться в различных сферах, где безопасность кода является критичной, например в разработке банковских приложений, медицинских программ и систем управления инфраструктурой. Благодаря наш
Abstract
Code-generating Large Language Models (LLMs) significantly accelerate
software development. However, their frequent generation of insecure code
presents serious risks. We present a comprehensive evaluation of seven
parameter-efficient fine-tuning (PEFT) techniques, demonstrating substantial
gains in secure code generation without compromising functionality. Our
research identifies prompt-tuning as the most effective PEFT method, achieving
an 80.86% Overall-Secure-Rate on CodeGen2 16B, a 13.5-point improvement over
the 67.28% baseline. Optimizing decoding strategies through sampling
temperature further elevated security to 87.65%. This equates to a reduction of
approximately 203,700 vulnerable code snippets per million generated. Moreover,
prompt and prefix tuning increase robustness against poisoning attacks in our
TrojanPuzzle evaluation, with strong performance against CWE-79 and CWE-502
attack vectors. Our findings generalize across Python and Java, confirming
prompt-tuning's consistent effectiveness. This study provides essential
insights and practical guidance for building more resilient software systems
with LLMs.
Ссылки и действия
Дополнительные ресурсы: