Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack

2509.23871v1 cs.CR, cs.AI, cs.CV, cs.LG 2025-10-01

Авторы:

Yukun Chen, Boheng Li, Yu Yuan, Leyi Qi, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren

Резюме на русском

#### Контекст Knowledge distillation (KD) является ключевым методом для развертывания глубоких нейронных сетей (DNN) на устройствах с ограниченными ресурсами. Он предполагает передачу знаний от высокоэффективных, но ресурсоёмких "учительских" моделей к компактным, но производительным "ученическим" моделям. Этот подход позволяет обеспечить высокую производительность моделей на устройствах, где производительность и энергоэффективность являются критичными факторами. Несмотря на популярность и полезность этого метода, он не без недостатков. Одним из возможных рисков является то, что учительские модели могут быть заражены скрытыми backdoor-атаками, которые могут быть переданы студенческим моделям через процесс KD. Эта проблема становится особенно критичной, если учительские модели получены из третьих сторон, где невозможно гарантировать их безопасность. Эта работа рассматривает новый и критический вид такой атаки, названный **distillation-conditional backdoor attack (DCBA)**, который имеет уникальные характеристики и значительный потенциал для загруженных устройств. #### Метод Для реализации DCBA мы предлагаем метод, основанный на **bilevel optimization**. Этот подход позволяет имитировать процесс KD, оптимизировав студенческую модель внутренним уровнем, а затем использовать выходы этой модели для оптимизации учителя, чтобы внедрить зараженный триггер. Мы вводим **SCAR (Simple Conditional Attack with Reverse-mode)**, который обеспечивает эффективную инъекцию backdoor-атаки в учительскую модель при помощи явного задания условий. Наша инъекция триггера основывается на алгоритме **implicit differentiation**, что позволяет нам обеспечить точность и эффективность при решении этой сложной задачи. Ключевые отличительные черты нашего подхода заключаются в том, что он не требует изменений в данных или допущений о модели, что делает его универсальным и опасным в различных условиях. #### Результаты Мы проводим опыты на эталонных датасетах, таких как CIFAR-10 и ImageNet, используя различные модели, такие как VGG, ResNet и MobileNet. Мы также используем различные KD-техники, включая fit-tuning и attention-based distillation. Результаты показывают, что метод SCAR выполняет успешную инъекцию backdoor-атаки в ученические модели даже при очистке данных и незаметности для существующих методов обнаружения бэкдоров. Кроме того, наши результаты показывают, что SCAR может выполнить успешную атаку с высокой инъекционной стойкостью, даже при соблюдении формальных процедур обнаружения backdoor-атак. Эти результаты обнаруживают серьезную уязвимость в процессе KD, которая была до этого незамечена. #### Значимость Наша работа выделяет новую и критическую уязвимость в широко используемом KD-процессе.

Abstract

Knowledge distillation (KD) is a vital technique for deploying deep neural networks (DNNs) on resource-constrained devices by transferring knowledge from large teacher models to lightweight student models. While teacher models from third-party platforms may undergo security verification (\eg, backdoor detection), we uncover a novel and critical threat: distillation-conditional backdoor attacks (DCBAs). DCBA injects dormant and undetectable backdoors into teacher models, which become activated in student models via the KD process, even with clean distillation datasets. While the direct extension of existing methods is ineffective for DCBA, we implement this attack by formulating it as a bilevel optimization problem and proposing a simple yet effective method (\ie, SCAR). Specifically, the inner optimization simulates the KD process by optimizing a surrogate student model, while the outer optimization leverages outputs from this surrogate to optimize the teacher model for implanting the conditional backdoor. Our SCAR addresses this complex optimization utilizing an implicit differentiation algorithm with a pre-optimized trigger injection function. Extensive experiments across diverse datasets, model architectures, and KD techniques validate the effectiveness of our SCAR and its resistance against existing backdoor detection, highlighting a significant yet previously overlooked vulnerability in the KD process. Our code is available at https://github.com/WhitolfChen/SCAR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GEO-Detective: Unveiling Location Privacy Risks in Images with LLM Agents

SPQR: A Standardized Benchmark for Modern Safety Alignment Methods in Text-to-Im...

BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-...

EditTrack: Detecting and Attributing AI-assisted Image Editing

Of-SemWat: High-payload text embedding for semantic watermarking of AI-generated...

Навигация