A Set of Generalized Components to Achieve Effective Poison-only Clean-label Backdoor Attacks with Collaborative Sample Selection and Triggers

2509.19947v1 cs.CR, cs.AI 2025-09-26

Авторы:

Zhixiao Wu, Yao Lu, Jie Wen, Hao Sun, Qi Zhou, Guangming Lu

Резюме на русском

#### Контекст Подменные атаки на кволиентный лабел (Clean-label Backdoor Attacks, CLBA) — одна из мошенных метод, которые ставятся задачей заместить атакуемого глубокого нейронного сети (DNN) поведем как зондирующим трансформатором специальным поведение, используя только ухудшившиеся входные данные, без изменения меток. Эти атаки являются опасными, поскольку их трудно обнаружить и защититься, так как они не изменяют меток, и, следовательно, не вызывают подозрений. Одним из ключевых подходов в CLBA является использование позионированных триггеров (т.е., визуальных или скрытых признаков) для запуска атаки. Однако существуют значительные проблемы в совместном использовании триггеров и выбора сэмплов. Эффективность CLBA зависит от того, как хорошо эти элементы сбалансированы. Например, простое сочетание триггеров и выбора сэмплов часто приводит к ограниченным улучшениям или даже ухудшению результатов. Мотивируя наши исследования является необходимость разработки более сильного, единого подхода, который бы улучшил стелтость и атакующую успешность (Attack Success Rate, ASR) в кволиентных лабел-атаках. #### Метод Мы предлагаем набор общих компонентов, которые могут быть интегрированы в различные варианты кволиентных лабел-атак, чтобы улучшить их ASR и стелтость. 1) **Компонент A** определяет две критические фактора выбора сэмплов и комбинирует их с учетом масштаба триггера, чтобы выбирать более приемлемые "тяжелые" сэмплы, что улучшает ASR. 2) **Компонент B** выбирает сэмплы, похожие на те, которые были подвергнуты триггерам, чтобы повысить стелтость. 3) **Компонент C** использует чувствительность человеческого зрения к RGB-компонентам для назначения триггеров на определенных цветных компонентах, что увеличивает ASR, при этом стелтость сохраняется благодаря выбору сэмплов, включая компонент B. Эти компоненты могут быть стратегически интегрированы в широкий круг различных подходов к кволиентным лабел-атакам. #### Результаты Мы проводили эксперименты на нескольких датасетах, включая CIFAR-10 и ImageNet, чтобы оценить эффективность нашего подхода. Мы использовали ASR и метрики стелтости (такие как ошибка скрытого поведения) для измерения результатов. Наши эксперименты показали, что интеграция наших компонентов в кволиентные лабел-атаки приводит к значительным улучшениям ASR и стелтости по сравнению с текущими методами, которые обрабатывают выбор сэмплов и триггеры в изоляции. В частности, наш подход показал увеличение ASR на 15-20% и существенное снижение ошибки скрытого поведения по сравнению с контрольными

Abstract

Poison-only Clean-label Backdoor Attacks aim to covertly inject attacker-desired behavior into DNNs by merely poisoning the dataset without changing the labels. To effectively implant a backdoor, multiple \textbf{triggers} are proposed for various attack requirements of Attack Success Rate (ASR) and stealthiness. Additionally, sample selection enhances clean-label backdoor attacks' ASR by meticulously selecting ``hard'' samples instead of random samples to poison. Current methods 1) usually handle the sample selection and triggers in isolation, leading to severely limited improvements on both ASR and stealthiness. Consequently, attacks exhibit unsatisfactory performance on evaluation metrics when converted to PCBAs via a mere stacking of methods. Therefore, we seek to explore the bidirectional collaborative relations between the sample selection and triggers to address the above dilemma. 2) Since the strong specificity within triggers, the simple combination of sample selection and triggers fails to substantially enhance both evaluation metrics, with generalization preserved among various attacks. Therefore, we seek to propose a set of components to significantly improve both stealthiness and ASR based on the commonalities of attacks. Specifically, Component A ascertains two critical selection factors, and then makes them an appropriate combination based on the trigger scale to select more reasonable ``hard'' samples for improving ASR. Component B is proposed to select samples with similarities to relevant trigger implanted samples to promote stealthiness. Component C reassigns trigger poisoning intensity on RGB colors through distinct sensitivity of the human visual system to RGB for higher ASR, with stealthiness ensured by sample selection, including Component B. Furthermore, all components can be strategically integrated into diverse PCBAs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Set of Generalized Components to Achieve Effective Poison-only Clean-label Backdoor Attacks with Collaborative Sample Selection and Triggers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация