Cryptographic Backdoor for Neural Networks: Boon and Bane

2509.20714v1 cs.CR, cs.LG 2025-09-27
Авторы:

Anh Tu Ngo, Anupam Chattopadhyay, Subhamoy Maitra

Резюме на русском

## Контекст Современная нейронная сеть (NN) является не только мощным инструментом для решения различных задач машинного обучения (ML), но и чувствительной к различным атакам. Одним из важных аспектов защиты NN является доказательство ее надежности и безопасности. Одна из проблем заключается в том, что атаки на NN часто трудно обнаружить, так как их могут запустить даже незначительные изменения модели. В этом контексте авторы рассматривают новый подход — использование криптографических бэкдоров, которые могут быть эффективны как для монтирования атак, так и для защиты моделей. Этот подход предлагается как альтернативная методология для обеспечения безопасности и контроля NN, включая применение на реальных примерах. ## Метод Авторы предложили криптографический подход, использующий бэкдор в NN для решения задач защиты и атак. Из набора методологий были выбраны следующие: (1) **Watermarking**: протокол доказывает владение моделью с помощью внедренного секрета, который восстанавливается только при условии владения ключом. Это позволяет обнаружить незаконное использование модели. (2) **User Authentication**: метод использует признаки избирательного сглаживания (adversarial perturbation), позволяя проверить подлинность пользователя при взаимодействии с моделью. (3) **IP Tracking**: протокол отслеживает несанкционированное распространение модели, используя секретные признаки, обнаруживаемые только при несанкционированном использовании. (4) **Adversarial Attacks**: авторы показали, как криптографические бэкдоры могут быть использованы для злонамеренных целей, в том числе для того, чтобы маскировать атаки, которые невозможно обнаружить с помощью стандартных методов. ## Результаты Авторы провели эксперименты на нескольких современных NN-архитектурах, включая ResNet и MobileNet. Использовались данные из MNIST и CIFAR-10. Результаты показали, что: (1) **Watermarking и User Authentication**: протоколы доказались как эффективные и надежные в условиях тестирования. (2) **IP Tracking**: протокол отслеживал несанкционированное использование модели, предотвращая незаконное распространение. (3) **Adversarial Attacks**: атаки, внедренные с помощью бэкдоров, невозможно обнаружить стандартными методами, что демонстрирует их мощь. ## Значимость Предложенный подход может быть применен в различных областях, где требуется обеспечение безопасности и контроль моделей. Например, он может использоваться для защиты авторских прав на модели, аутентификации пользователей, предотвращения несанкционированного распространения. Защита от криптографических атак является одним из перспективных направлений развития ML. Также, использование пост-квантовых примитивов позволяет представить этот подход как будущую технологию

Abstract

In this paper we show that cryptographic backdoors in a neural network (NN) can be highly effective in two directions, namely mounting the attacks as well as in presenting the defenses as well. On the attack side, a carefully planted cryptographic backdoor enables powerful and invisible attack on the NN. Considering the defense, we present applications: first, a provably robust NN watermarking scheme; second, a protocol for guaranteeing user authentication; and third, a protocol for tracking unauthorized sharing of the NN intellectual property (IP). From a broader theoretical perspective, borrowing the ideas from Goldwasser et. al. [FOCS 2022], our main contribution is to show that all these instantiated practical protocol implementations are provably robust. The protocols for watermarking, authentication and IP tracking resist an adversary with black-box access to the NN, whereas the backdoor-enabled adversarial attack is impossible to prevent under the standard assumptions. While the theoretical tools used for our attack is mostly in line with the Goldwasser et. al. ideas, the proofs related to the defense need further studies. Finally, all these protocols are implemented on state-of-the-art NN architectures with empirical results corroborating the theoretical claims. Further, one can utilize post-quantum primitives for implementing the cryptographic backdoors, laying out foundations for quantum-era applications in machine learning (ML).

Ссылки и действия