Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks

2509.16546v1 cs.CR, cs.AI, F.2.2, I.2.7 2025-09-25
Авторы:

Ashley Kurian, Aydin Aysu

Резюме на русском

## Контекст Neural networks являются ценнейшей интеллектуальной собственностью, так как их разработка требует значительных вычислительных ресурсов, экспертных трудозатрат и защищенных данных. Однако их параметры широко распространяются в сети, что приводит к угрозам криптоаналитических атак, нацеленных на их извлечение. Эти атаки могут быть применены для получения копии модели, что негативно сказывается на конкурентной позиции разработчика и на системе безопасности модели. Тем не менее, существующие методы защиты, такие как преобразования и уплотнения, оказываются неэффективными против сложных криптоаналитических атак, которые способны работать с более глубокими моделями. Таким образом, необходимо разработать надежный метод защиты, который не ослабляет модель и позволяет защитить ее параметры от извлечения. ## Метод Предложенный метод, названный **Extraction-Aware Training (EAT)**, представляет собой новую методологию обучения для защиты моделей. Основная идея заключается в изменении стандартной функции потерь с помощью добавления регуляризационного слагаемого, минимизирующего расстояние между весами нейронов в каждом слое. Это приводит к снижению уникальности нейронов, что становится критически важно для криптоаналитических атак, так как они опираются на уникальные отклики нейронов. Эта методика добавляется к стандартному обучению и не требует дополнительных ресурсов во время выполнения модели. Реализация EAT была протестирована на различных архитектурах и датасетах, и продемонстрировала высокую эффективность в защите от криптоаналитических атак. ## Результаты На ряде экспериментов было продемонстрировано, что модели, обученные с помощью EAT, показывают минимальные изменения в точности (менее 1%) по сравнению с незащищенными моделями. В то же время протестирована ее эффективность на разных атаках: в теоретическом рамке была определена вероятность успешного извлечения параметров, а в практических условиях было продемонстрировано, что модели, обученные EAT, выдерживают атаки до 4 часов, в то время как незащищенные модели ломаются в течение 14 минут-4 часов. Это указывает на высокую надежность EAT в защите параметров модели. ## Значимость Защитный метод EAT может быть применен в сферах, где защита параметров модели критична, таких как финансовые системы, медицинская интеллектуальная собственность и робототехника. Он позволяет усилить защиту моделей без изменения характеристик производительности и вычислительного времени. Благодаря уникальности этого подхода, он способен стать ключевым элементом в стратегии защиты моделей от криптоаналитических атак. Такж

Abstract

Neural networks are valuable intellectual property due to the significant computational cost, expert labor, and proprietary data involved in their development. Consequently, protecting their parameters is critical not only for maintaining a competitive advantage but also for enhancing the model's security and privacy. Prior works have demonstrated the growing capability of cryptanalytic attacks to scale to deeper models. In this paper, we present the first defense mechanism against cryptanalytic parameter extraction attacks. Our key insight is to eliminate the neuron uniqueness necessary for these attacks to succeed. We achieve this by a novel, extraction-aware training method. Specifically, we augment the standard loss function with an additional regularization term that minimizes the distance between neuron weights within a layer. Therefore, the proposed defense has zero area-delay overhead during inference. We evaluate the effectiveness of our approach in mitigating extraction attacks while analyzing the model accuracy across different architectures and datasets. When re-trained with the same model architecture, the results show that our defense incurs a marginal accuracy change of less than 1% with the modified loss function. Moreover, we present a theoretical framework to quantify the success probability of the attack. When tested comprehensively with prior attack settings, our defense demonstrated empirical success for sustained periods of extraction, whereas unprotected networks are extracted between 14 minutes to 4 hours.

Ссылки и действия