Localizing Malicious Outputs from CodeLLM

2509.17070v1 cs.CR, cs.CL, cs.LG 2025-09-24

Авторы:

Mayukh Borana, Junyi Liang, Sai Sathiesh Rajan, Sudipta Chattopadhyay

Резюме на русском

#### Контекст Машинное обучение (ML), особенно в сфере генерирующих моделей языка, повсеместно применяется в различных областях. Однако такие модели часто становятся целью атак, в том числе вредоносных. Например, вредоносные акторы могут использовать такие модели для внедрения backdoor-триггеров, которые могут быть активированы за счет конкретных входных данных. Это может привести к выводу вредоносных результатов или действий. Таким образом, исследование методов, позволяющих обнаруживать и локализовать такие вредоносные выходы, является ключевым для обеспечения безопасности и надежности ML-систем. #### Метод Метод, представленный в статье, называется FreqRank и основывается на мутационном подходе. Он использует частоту появления подозрительных подстрок в выходных данных для определения вредоносных субстрок. Для этого FreqRank сравнивает частоту появления таких подстрок в выходных данных с теми, что есть в стандартных, не вредоносных выходных данных. В случае наличия высокой частоты подозрительных подстрок, они относятся к вредоносным. Для локализации backdoor-триггеров FreqRank использует полученные рейтинги, выявляя подстроки, которые влияют на вредоносный результат. Архитектура метода предполагает использование генерирующей модели языка и предоставления подстрок для тестирования их влияния. #### Результаты Чтобы проверить эффективность FreqRank, авторы ввели в работу несколько вредоносных моделей, созданных путем fine-tuning или настройки пользовательских инструкций. Эти модели были применены к трем разным задачам: кода, компиляции и описания кода. Они показали среднюю успешность атаки (Attack Success Rate, ASR) в районе 86.6%. Система FreqRank смогла выделить вредоносные выходы в 98% случаев, отображая их в пяти лучших предложениях. Было также продемонстрировано, что эффективность FreqRank растёт с увеличением количества мутаций и демонстрирует высокую точность даже при малом количестве входных данных, активирующих триггер. Это делает FreqRank 35-50% эффективнее других методов, используемых для локализации вредоносных выходов. #### Значимость FreqRank может быть применен в различных областях, где используются генерирующие модели языка, таких как кодирование, описание и генерация кода. Его особенностью является высокая точность в локализации вредоносных выходов, что позволяет быстро итоговые модели исправить. Это повышает уровень безопасности и надежности таких моделей в реальном мире. Более того, FreqRank может быть использован для контроля качества и оптимизации моделей, выявляя и устраняя возможные уязвимости. #### Выводы Результаты исследований показывают, что FreqRank является эффективным инст

Abstract

We introduce FreqRank, a mutation-based defense to localize malicious components in LLM outputs and their corresponding backdoor triggers. FreqRank assumes that the malicious sub-string(s) consistently appear in outputs for triggered inputs and uses a frequency-based ranking system to identify them. Our ranking system then leverages this knowledge to localize the backdoor triggers present in the inputs. We create nine malicious models through fine-tuning or custom instructions for three downstream tasks, namely, code completion (CC), code generation (CG), and code summarization (CS), and show that they have an average attack success rate (ASR) of 86.6%. Furthermore, FreqRank's ranking system highlights the malicious outputs as one of the top five suggestions in 98% of cases. We also demonstrate that FreqRank's effectiveness scales as the number of mutants increases and show that FreqRank is capable of localizing the backdoor trigger effectively even with a limited number of triggered samples. Finally, we show that our approach is 35-50% more effective than other defense methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Localizing Malicious Outputs from CodeLLM

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Securing Large Language Models (LLMs) from Prompt Injection Attacks

Steganographic Backdoor Attacks in NLP: Ultra-Low Poisoning and Defense Evasion

PVMark: Enabling Public Verifiability for LLM Watermarking Schemes

Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks again...

Differentially Private Synthetic Text Generation for Retrieval-Augmented Generat...

Навигация