Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack
2509.23871v1
cs.CR, cs.AI, cs.CV, cs.LG
2025-10-01
Авторы:
Yukun Chen, Boheng Li, Yu Yuan, Leyi Qi, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren
Резюме на русском
#### Контекст
Knowledge distillation (KD) является ключевым методом для развертывания глубоких нейронных сетей (DNN) на устройствах с ограниченными ресурсами. Он предполагает передачу знаний от высокоэффективных, но ресурсоёмких "учительских" моделей к компактным, но производительным "ученическим" моделям. Этот подход позволяет обеспечить высокую производительность моделей на устройствах, где производительность и энергоэффективность являются критичными факторами. Несмотря на популярность и полезность этого метода, он не без недостатков. Одним из возможных рисков является то, что учительские модели могут быть заражены скрытыми backdoor-атаками, которые могут быть переданы студенческим моделям через процесс KD. Эта проблема становится особенно критичной, если учительские модели получены из третьих сторон, где невозможно гарантировать их безопасность. Эта работа рассматривает новый и критический вид такой атаки, названный **distillation-conditional backdoor attack (DCBA)**, который имеет уникальные характеристики и значительный потенциал для загруженных устройств.
#### Метод
Для реализации DCBA мы предлагаем метод, основанный на **bilevel optimization**. Этот подход позволяет имитировать процесс KD, оптимизировав студенческую модель внутренним уровнем, а затем использовать выходы этой модели для оптимизации учителя, чтобы внедрить зараженный триггер. Мы вводим **SCAR (Simple Conditional Attack with Reverse-mode)**, который обеспечивает эффективную инъекцию backdoor-атаки в учительскую модель при помощи явного задания условий. Наша инъекция триггера основывается на алгоритме **implicit differentiation**, что позволяет нам обеспечить точность и эффективность при решении этой сложной задачи. Ключевые отличительные черты нашего подхода заключаются в том, что он не требует изменений в данных или допущений о модели, что делает его универсальным и опасным в различных условиях.
#### Результаты
Мы проводим опыты на эталонных датасетах, таких как CIFAR-10 и ImageNet, используя различные модели, такие как VGG, ResNet и MobileNet. Мы также используем различные KD-техники, включая fit-tuning и attention-based distillation. Результаты показывают, что метод SCAR выполняет успешную инъекцию backdoor-атаки в ученические модели даже при очистке данных и незаметности для существующих методов обнаружения бэкдоров. Кроме того, наши результаты показывают, что SCAR может выполнить успешную атаку с высокой инъекционной стойкостью, даже при соблюдении формальных процедур обнаружения backdoor-атак. Эти результаты обнаруживают серьезную уязвимость в процессе KD, которая была до этого незамечена.
#### Значимость
Наша работа выделяет новую и критическую уязвимость в широко используемом KD-процессе.
Abstract
Knowledge distillation (KD) is a vital technique for deploying deep neural
networks (DNNs) on resource-constrained devices by transferring knowledge from
large teacher models to lightweight student models. While teacher models from
third-party platforms may undergo security verification (\eg, backdoor
detection), we uncover a novel and critical threat: distillation-conditional
backdoor attacks (DCBAs). DCBA injects dormant and undetectable backdoors into
teacher models, which become activated in student models via the KD process,
even with clean distillation datasets. While the direct extension of existing
methods is ineffective for DCBA, we implement this attack by formulating it as
a bilevel optimization problem and proposing a simple yet effective method
(\ie, SCAR). Specifically, the inner optimization simulates the KD process by
optimizing a surrogate student model, while the outer optimization leverages
outputs from this surrogate to optimize the teacher model for implanting the
conditional backdoor. Our SCAR addresses this complex optimization utilizing an
implicit differentiation algorithm with a pre-optimized trigger injection
function. Extensive experiments across diverse datasets, model architectures,
and KD techniques validate the effectiveness of our SCAR and its resistance
against existing backdoor detection, highlighting a significant yet previously
overlooked vulnerability in the KD process. Our code is available at
https://github.com/WhitolfChen/SCAR.