Pruning Strategies for Backdoor Defense in LLMs

2508.20032v1 cs.LG, cs.CL 2025-08-29

Авторы:

Santosh Chapagain, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi

Резюме на русском

## Контекст В настоящее время предварительно обученные языковые модели (LLMs) широко используются в различных приложениях, но остаются уязвимыми к опасным атакам типа "возвратный угон" (backdoor attacks). Такие атаки заключаются в том, что злоумышленник внедряет в модель скрытые "триггеры", которые могут вызывать нежелательное поведение при подаче конкретных входных данных. Например, триггер может привести к неправильному ответу модели на определенные запросы или даже привести к выдаче вредоносной информации. Особенно трудно обнаружить такие атаки, так как триггеры могут быть размещены внутри модели с использованием незаметных синтаксических или стилистических изменений. Кроме того, ранее предложенные методы защиты от таких атак требуют доступа к знаниям о триггере или специально обученном модели, называемой "чистым" модели. Это ограничивает применение таких методов в реальной жизни, где пользователи часто не имеют доступа к таким данным. В этом исследовании мы исследуем момент, когда можно обойтись без таких знаний, рассматривая методы упрощения модели, которые могут защитить ее от таких атак. ## Метод Мы предлагаем исследовать ряд методов упрощения моделей, называемых "грунджинг" (pruning), которые могут оптимизировать модель, удаляя ненужные части, не влияя на ее функциональность. Мы рассматриваем шесть различных стратегий грунджинга: 1. **Градиентная оптимизация грунджинга** (Gradient-based pruning): Эта стратегия удаляет части модели, которые не приносят большого вклада в точность модели. 2. **Уровневая переменная грунджинга** (Layer-wise variance pruning): Удаляются те части модели, которые меняются меньше всего в процессе обучения. 3. **Градиентная оптимизация с L1/L2 спарсификацией** (Gradient-based pruning with structured L1/L2 sparsification): Удаляются ненужные части модели, которые могут быть известны заранее, как например, слои с малым вкладом в обучение. 4. **Рандомизированный переменный переменный грунджинг** (Randomized ensemble pruning): Множество моделей разного класса упрощаются одновременно, что позволяет выделить лучшие части каждой модели. 5. **Рейнфорсмент-применение грунджинга** (Reinforcement-learning-guided pruning): Используется специальный алгоритм, который учитывает взаимодействия между моделями, чтобы определить, какие части модели могут быть удалены. 6. **Байесовская неопределенность грунджинга** (Bayesian uncertainty pruning): Удаления частей модели, которые не достаточно уверенные в своих ответах. Каждая из этих стратегий модифицирует модель, удаляя менее важные части, при этом следит за влиянием этих изменений на качество модели, чтобы избежать полного удаления полезных частей.

Abstract

Backdoor attacks are a significant threat to the performance and integrity of pre-trained language models. Although such models are routinely fine-tuned for downstream NLP tasks, recent work shows they remain vulnerable to backdoor attacks that survive vanilla fine-tuning. These attacks are difficult to defend because end users typically lack knowledge of the attack triggers. Such attacks consist of stealthy malicious triggers introduced through subtle syntactic or stylistic manipulations, which can bypass traditional detection and remain in the model, making post-hoc purification essential. In this study, we explore whether attention-head pruning can mitigate these threats without any knowledge of the trigger or access to a clean reference model. To this end, we design and implement six pruning-based strategies: (i) gradient-based pruning, (ii) layer-wise variance pruning, (iii) gradient-based pruning with structured L1/L2 sparsification, (iv) randomized ensemble pruning, (v) reinforcement-learning-guided pruning, and (vi) Bayesian uncertainty pruning. Each method iteratively removes the least informative heads while monitoring validation accuracy to avoid over-pruning. Experimental evaluation shows that gradient-based pruning performs best while defending the syntactic triggers, whereas reinforcement learning and Bayesian pruning better withstand stylistic attacks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pruning Strategies for Backdoor Defense in LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация