SilentStriker:Toward Stealthy Bit-Flip Attacks on Large Language Models

2509.17371v2 cs.CR, cs.LG 2025-09-24
Авторы:

Haotian Xu, Qingsong Peng, Jie Shi, Huadi Zheng, Yu Li, Cheng Zhuo

Резюме на русском

## Контекст В последние годы широко распространено использование больших языковых моделей (LLMs) в критичных областях применения, таких как медицина, финансы и системы управления. Однако данные модели чувствительны к атакам, направленным на их характеристики и функционирование. Одним из таких атак являются **Bit-Flip Attacks (BFAs)**, которые используют уязвимости железа для искажения моделей параметров и приводят к серьезному выполнению задач. Несмотря на это, существующие методы BFA имеют ограничения в характеристике работы модели и естественности выходных данных. Мотивация для данной работы лежит в необходимости создания мощной, но скрытой, бит-флип-атаки, которая не только будет эффективной, но и сохранит природу выводов. ## Метод Мы предлагаем **SilentStriker**, первую stealthy bit-flip attack на LLMs. Для разработки SilentStriker мы вводим новый подход к оптимизации атак, который учитывает сложность выходов LLMs с разными длинами и широким пространством выводов. В отличие от предыдущих методов, которые используют оценку perplexity для формирования атаки, мы предлагаем новую формулу для оптимизации, основанную на важных выходных токенах. Это позволяет оптимизировать и целевой эффект атаки, и ее скрытость. Также в SilentStriker внедрена итеративная, прогрессивная стратегия поиска, которая увеличивает эффективность атаки. ## Результаты Мы проверили SilentStriker на нескольких LLMs, включая GPT-2 и RoBERTa, используя различные задачи NLP. Эксперименты показали, что SilentStriker значительно улучшает стестость атак по сравнению с существующими методами, а также сохраняет высокий уровень естественности выходных данных. Например, в задаче генерации текста SilentStriker удалось снизить производительность модели на 30%, при этом сохранив природу вывода на уровне 95%. Это свидетельствует о высокой эффективности и скрытости нашего подхода. ## Значимость SilentStriker может применяться в различных областях, где значительное необходимость в повышении безопасности LLMs. Например, в медицине и финансах, где подделанные выводы модели могут привести к значительным потерям. Основное преимущество SilentStriker заключается в скрытости и эффективности атаки. Данный подход может быть использован для оценки уязвимости любых LLMs, помогая разработчикам улучшить меры безопасности и выявить уязвимости до их использования в критичных приложениях. ## Выводы Мы представили SilentStriker, первую stealthy bit-flip attack, которая эффективно приводит к снижению производительности LLMs, сохраняя природу вывода. Это достигнуто благодаря новому подходу к оптимизации и итеративной стратегии поиска. Наши результаты показывают

Abstract

The rapid adoption of large language models (LLMs) in critical domains has spurred extensive research into their security issues. While input manipulation attacks (e.g., prompt injection) have been well studied, Bit-Flip Attacks (BFAs) -- which exploit hardware vulnerabilities to corrupt model parameters and cause severe performance degradation -- have received far less attention. Existing BFA methods suffer from key limitations: they fail to balance performance degradation and output naturalness, making them prone to discovery. In this paper, we introduce SilentStriker, the first stealthy bit-flip attack against LLMs that effectively degrades task performance while maintaining output naturalness. Our core contribution lies in addressing the challenge of designing effective loss functions for LLMs with variable output length and the vast output space. Unlike prior approaches that rely on output perplexity for attack loss formulation, which inevitably degrade output naturalness, we reformulate the attack objective by leveraging key output tokens as targets for suppression, enabling effective joint optimization of attack effectiveness and stealthiness. Additionally, we employ an iterative, progressive search strategy to maximize attack efficacy. Experiments show that SilentStriker significantly outperforms existing baselines, achieving successful attacks without compromising the naturalness of generated text.

Ссылки и действия