Strategic Sample Selection for Improved Clean-Label Backdoor Attacks in Text Classification

2508.15934v1 cs.CR, cs.AI, cs.LG 2025-08-26
Авторы:

Onur Alp Kirci, M. Emre Gursoy

Резюме на русском

## Контекст Backdoor атаки являются серьезной угрозой для текстовых классификационных моделей в области естественного языкового процессинга. Хотя многие грязно-меток (dirty-label) атаки показали высокую эффективность в достижении высокой процентной доли обнаружения (ASR), нативно-меток (clean-label) атаки являются значительно более сложными. Модели часто используются в критических приложениях, таких как модели NLP, что делает критически важным исследование эффективных методов борьбы с такими атаками. Наше исследование сосредоточено на проблеме стратегического выбора образцов для улучшения эффективности атак в чистых-метках (clean-label) сценариях, где атаки должны оставаться незаметными для пользователей, не используя явное меткование. ## Метод Мы предлагаем три стратегии стратегического выбора образцов для улучшения эффективности атак: Minimum, Above50 и Below50. Эти стратегии определяют образцы, которые модель классификации ошибается или которые она классифицирует с небольшой уверенностью. Мы внедряем в эти образцы ускодыши (trigger patterns), чтобы усилить связь между ними и желаемым целевым меткой, которую проводит атакующий. Эти стратегии применяются к чистым-меткам (clean-label) вариантам четырех классических атак (InsertSent, WordInj, StyleBkd, SynBkd) и оцениваются на трех наборах данных (IMDB, SST2, HateSpeech) и четырьмя типами моделей (LSTM, BERT, DistilBERT, RoBERTa). Это позволяет проверить эффективность наших стратегий на различных моделях и данных. ## Результаты Наши эксперименты показали, что в чистых-метках (clean-label) сценариях, стратегия Minimum позволяет значительно повысить процент ASR (Attack Success Rate) в отношении случайных выборов образцов, без существенного снижения чистых (clean) точности модели. Это означает, что наши стратегии позволяют проводить высокоэффективные атаки, не вызывая подозрения в пользователей. Наши результаты также показали, что наши стратегии выполняются значительно лучше, чем текущая состоящая стратегия чистых-метка (clean-label), BITE, во многих случаях. Это подтверждает эффективность наших стратегий в стратегическом выборе образцов для улучшения чистых атак. ## Значимость Наши стратегии могут быть применены в многих областях, где чистые-метки (clean-label) атаки могут быть использованы для подделки текстовых классификационных моделей. Например, в новостных сервисах, социальных сетях и системах обработки естественного языка. Эффективность наших стратегий позволяет усилить угрозу чистых атак с минимальным влиянием на чистую точность модели, что делает их особенно опасными. Наши результаты демонстрируют, что стратегическое выбор об

Abstract

Backdoor attacks pose a significant threat to the integrity of text classification models used in natural language processing. While several dirty-label attacks that achieve high attack success rates (ASR) have been proposed, clean-label attacks are inherently more difficult. In this paper, we propose three sample selection strategies to improve attack effectiveness in clean-label scenarios: Minimum, Above50, and Below50. Our strategies identify those samples which the model predicts incorrectly or with low confidence, and by injecting backdoor triggers into such samples, we aim to induce a stronger association between the trigger patterns and the attacker-desired target label. We apply our methods to clean-label variants of four canonical backdoor attacks (InsertSent, WordInj, StyleBkd, SynBkd) and evaluate them on three datasets (IMDB, SST2, HateSpeech) and four model types (LSTM, BERT, DistilBERT, RoBERTa). Results show that the proposed strategies, particularly the Minimum strategy, significantly improve the ASR over random sample selection with little or no degradation in the model's clean accuracy. Furthermore, clean-label attacks enhanced by our strategies outperform BITE, a state of the art clean-label attack method, in many configurations.

Ссылки и действия