Strategic Sample Selection for Improved Clean-Label Backdoor Attacks in Text Classification
2508.15934v1
cs.CR, cs.AI, cs.LG
2025-08-26
Авторы:
Onur Alp Kirci, M. Emre Gursoy
Резюме на русском
## Контекст
Backdoor атаки являются серьезной угрозой для текстовых классификационных моделей в области естественного языкового процессинга. Хотя многие грязно-меток (dirty-label) атаки показали высокую эффективность в достижении высокой процентной доли обнаружения (ASR), нативно-меток (clean-label) атаки являются значительно более сложными. Модели часто используются в критических приложениях, таких как модели NLP, что делает критически важным исследование эффективных методов борьбы с такими атаками. Наше исследование сосредоточено на проблеме стратегического выбора образцов для улучшения эффективности атак в чистых-метках (clean-label) сценариях, где атаки должны оставаться незаметными для пользователей, не используя явное меткование.
## Метод
Мы предлагаем три стратегии стратегического выбора образцов для улучшения эффективности атак: Minimum, Above50 и Below50. Эти стратегии определяют образцы, которые модель классификации ошибается или которые она классифицирует с небольшой уверенностью. Мы внедряем в эти образцы ускодыши (trigger patterns), чтобы усилить связь между ними и желаемым целевым меткой, которую проводит атакующий. Эти стратегии применяются к чистым-меткам (clean-label) вариантам четырех классических атак (InsertSent, WordInj, StyleBkd, SynBkd) и оцениваются на трех наборах данных (IMDB, SST2, HateSpeech) и четырьмя типами моделей (LSTM, BERT, DistilBERT, RoBERTa). Это позволяет проверить эффективность наших стратегий на различных моделях и данных.
## Результаты
Наши эксперименты показали, что в чистых-метках (clean-label) сценариях, стратегия Minimum позволяет значительно повысить процент ASR (Attack Success Rate) в отношении случайных выборов образцов, без существенного снижения чистых (clean) точности модели. Это означает, что наши стратегии позволяют проводить высокоэффективные атаки, не вызывая подозрения в пользователей. Наши результаты также показали, что наши стратегии выполняются значительно лучше, чем текущая состоящая стратегия чистых-метка (clean-label), BITE, во многих случаях. Это подтверждает эффективность наших стратегий в стратегическом выборе образцов для улучшения чистых атак.
## Значимость
Наши стратегии могут быть применены в многих областях, где чистые-метки (clean-label) атаки могут быть использованы для подделки текстовых классификационных моделей. Например, в новостных сервисах, социальных сетях и системах обработки естественного языка. Эффективность наших стратегий позволяет усилить угрозу чистых атак с минимальным влиянием на чистую точность модели, что делает их особенно опасными. Наши результаты демонстрируют, что стратегическое выбор об
Abstract
Backdoor attacks pose a significant threat to the integrity of text
classification models used in natural language processing. While several
dirty-label attacks that achieve high attack success rates (ASR) have been
proposed, clean-label attacks are inherently more difficult. In this paper, we
propose three sample selection strategies to improve attack effectiveness in
clean-label scenarios: Minimum, Above50, and Below50. Our strategies identify
those samples which the model predicts incorrectly or with low confidence, and
by injecting backdoor triggers into such samples, we aim to induce a stronger
association between the trigger patterns and the attacker-desired target label.
We apply our methods to clean-label variants of four canonical backdoor attacks
(InsertSent, WordInj, StyleBkd, SynBkd) and evaluate them on three datasets
(IMDB, SST2, HateSpeech) and four model types (LSTM, BERT, DistilBERT,
RoBERTa). Results show that the proposed strategies, particularly the Minimum
strategy, significantly improve the ASR over random sample selection with
little or no degradation in the model's clean accuracy. Furthermore,
clean-label attacks enhanced by our strategies outperform BITE, a state of the
art clean-label attack method, in many configurations.
Ссылки и действия
Дополнительные ресурсы: