Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks
2509.16546v1
cs.CR, cs.AI, F.2.2, I.2.7
2025-09-25
Авторы:
Ashley Kurian, Aydin Aysu
Резюме на русском
## Контекст
Neural networks являются ценнейшей интеллектуальной собственностью, так как их разработка требует значительных вычислительных ресурсов, экспертных трудозатрат и защищенных данных. Однако их параметры широко распространяются в сети, что приводит к угрозам криптоаналитических атак, нацеленных на их извлечение. Эти атаки могут быть применены для получения копии модели, что негативно сказывается на конкурентной позиции разработчика и на системе безопасности модели. Тем не менее, существующие методы защиты, такие как преобразования и уплотнения, оказываются неэффективными против сложных криптоаналитических атак, которые способны работать с более глубокими моделями. Таким образом, необходимо разработать надежный метод защиты, который не ослабляет модель и позволяет защитить ее параметры от извлечения.
## Метод
Предложенный метод, названный **Extraction-Aware Training (EAT)**, представляет собой новую методологию обучения для защиты моделей. Основная идея заключается в изменении стандартной функции потерь с помощью добавления регуляризационного слагаемого, минимизирующего расстояние между весами нейронов в каждом слое. Это приводит к снижению уникальности нейронов, что становится критически важно для криптоаналитических атак, так как они опираются на уникальные отклики нейронов. Эта методика добавляется к стандартному обучению и не требует дополнительных ресурсов во время выполнения модели. Реализация EAT была протестирована на различных архитектурах и датасетах, и продемонстрировала высокую эффективность в защите от криптоаналитических атак.
## Результаты
На ряде экспериментов было продемонстрировано, что модели, обученные с помощью EAT, показывают минимальные изменения в точности (менее 1%) по сравнению с незащищенными моделями. В то же время протестирована ее эффективность на разных атаках: в теоретическом рамке была определена вероятность успешного извлечения параметров, а в практических условиях было продемонстрировано, что модели, обученные EAT, выдерживают атаки до 4 часов, в то время как незащищенные модели ломаются в течение 14 минут-4 часов. Это указывает на высокую надежность EAT в защите параметров модели.
## Значимость
Защитный метод EAT может быть применен в сферах, где защита параметров модели критична, таких как финансовые системы, медицинская интеллектуальная собственность и робототехника. Он позволяет усилить защиту моделей без изменения характеристик производительности и вычислительного времени. Благодаря уникальности этого подхода, он способен стать ключевым элементом в стратегии защиты моделей от криптоаналитических атак. Такж
Abstract
Neural networks are valuable intellectual property due to the significant
computational cost, expert labor, and proprietary data involved in their
development. Consequently, protecting their parameters is critical not only for
maintaining a competitive advantage but also for enhancing the model's security
and privacy. Prior works have demonstrated the growing capability of
cryptanalytic attacks to scale to deeper models. In this paper, we present the
first defense mechanism against cryptanalytic parameter extraction attacks. Our
key insight is to eliminate the neuron uniqueness necessary for these attacks
to succeed. We achieve this by a novel, extraction-aware training method.
Specifically, we augment the standard loss function with an additional
regularization term that minimizes the distance between neuron weights within a
layer. Therefore, the proposed defense has zero area-delay overhead during
inference. We evaluate the effectiveness of our approach in mitigating
extraction attacks while analyzing the model accuracy across different
architectures and datasets. When re-trained with the same model architecture,
the results show that our defense incurs a marginal accuracy change of less
than 1% with the modified loss function. Moreover, we present a theoretical
framework to quantify the success probability of the attack. When tested
comprehensively with prior attack settings, our defense demonstrated empirical
success for sustained periods of extraction, whereas unprotected networks are
extracted between 14 minutes to 4 hours.