SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models

2509.21843v1 cs.CR, cs.CL, cs.LG 2025-09-30

Авторы:

Jingkai Guo, Chaitali Chakrabarti, Deliang Fan

Резюме на русском

#### Контекст Large Language Models (LLMs) становятся все более популярными благодаря своим возможностям в области текстового понимания и генерации. Однако их со временем становится все чаще целью атак на безопасность. Одной из таких угроз является Bit-Flip Attack (BFA), способ атаки, в котором действующий бит в памяти модели меняется на ноль. Ранее проводились исследования, показавшие, что даже небольшое количество таких битовых ошибок может стать причиной серьезного ухудшения качества работы моделей, достигая уровня случайного генерирования. В этом работе мы исследуем применение BFA к самым современным LLMs и продемонстрируем, что даже один бит может испортить работу модели. #### Метод Мы предлагаем Single Sneaky Bit Flip Attack (SBFA), новый атакующий алгоритм, который разработан для LLMs. Этот метод основывается на итерационной оценке и рейтинге параметров модели с помощью ImpactScore, метрики, которая учитывает градиентную чувствительность и ограничение переменных в разумных границах нормальных значений весов модели. Для повышения эффективности, мы применяем новую легковесную SKIP-методику, которая существенно сокращает сложность поиска. Это позволяет выполнить поиск в течение нескольких минут для современных моделей LLM. Мы применяем SBFA к моделям Qwen, LLaMA и Gemma, чтобы продемонстрировать свою эффективность. #### Результаты Мы проводили эксперименты с LLMs в разных условиях, включая BF16 и INT8 данные. Наши результаты показывают, что SBFA способен серьезно испортить работу моделей, ниже уровня случайного угадывания, с помощью только одного бита из миллиардов параметров. Это отмечается как на Qwen, так и на LLaMA и Gemma. Эти результаты показывают, что даже один небольшой битовый сбой может стать причиной катастрофической заваливания модели. #### Значимость Эти результаты являются важной новостью для развития безопасности моделей LLMs. Мы показываем, что уязвимость LLMs к таким атакам может быть использована для нанесения вреда, даже при минимальных вмешательствах. Это открывает новые пути для развития методов защиты LLMs и повышения их надежности в реальном мире. #### Выводы Наши результаты демонстрируют, что SBFA является эффективным инструментом для проведения BFA на современных LLMs. Мы показываем, что даже один бит может стать причиной серьезного недостатка модели. Будущие исследования будут направлены на развитие методов защиты от таких атак и расширение понимания уязвимостей LLMs.

Abstract

Model integrity of Large language models (LLMs) has become a pressing security concern with their massive online deployment. Prior Bit-Flip Attacks (BFAs) -- a class of popular AI weight memory fault-injection techniques -- can severely compromise Deep Neural Networks (DNNs): as few as tens of bit flips can degrade accuracy toward random guessing. Recent studies extend BFAs to LLMs and reveal that, despite the intuition of better robustness from modularity and redundancy, only a handful of adversarial bit flips can also cause LLMs' catastrophic accuracy degradation. However, existing BFA methods typically focus on either integer or floating-point models separately, limiting attack flexibility. Moreover, in floating-point models, random bit flips often cause perturbed parameters to extreme values (e.g., flipping in exponent bit), making it not stealthy and leading to numerical runtime error (e.g., invalid tensor values (NaN/Inf)). In this work, for the first time, we propose SBFA (Sneaky Bit-Flip Attack), which collapses LLM performance with only one single bit flip while keeping perturbed values within benign layer-wise weight distribution. It is achieved through iterative searching and ranking through our defined parameter sensitivity metric, ImpactScore, which combines gradient sensitivity and perturbation range constrained by the benign layer-wise weight distribution. A novel lightweight SKIP searching algorithm is also proposed to greatly reduce searching complexity, which leads to successful SBFA searching taking only tens of minutes for SOTA LLMs. Across Qwen, LLaMA, and Gemma models, with only one single bit flip, SBFA successfully degrades accuracy to below random levels on MMLU and SST-2 in both BF16 and INT8 data formats. Remarkably, flipping a single bit out of billions of parameters reveals a severe security concern of SOTA LLM models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Securing Large Language Models (LLMs) from Prompt Injection Attacks

Steganographic Backdoor Attacks in NLP: Ultra-Low Poisoning and Defense Evasion

PVMark: Enabling Public Verifiability for LLM Watermarking Schemes

Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks again...

Differentially Private Synthetic Text Generation for Retrieval-Augmented Generat...

Навигация