I Stolenly Swear That I Am Up to (No) Good: Design and Evaluation of Model Stealing Attacks
2508.21654v1
cs.CR, cs.LG
2025-09-02
Авторы:
Daryna Oliynyk, Rudolf Mayer, Kathrin Grosse, Andreas Rauber
Резюме на русском
## Контекст
Модели машинного обучения, предоставляемые в виде услуги, часто являются ключевым компонентом современных систем. Однако их конфиденциальность грозят атаками "стеленного моделирования" (model stealing attacks), при которых злоумышленник может получить доступ к модели, запросив ее многократно для классификации данных, и использовать эти данные для построения собственной модели. Данная проблема нарушает интеллектуальную собственность и является значительным угрозой безопасности. Несмотря на то, что атаки в этой области продолжают развиваться, существуют проблемы с стандартизацией их разработки и оценкой, что мешает сравнению различных подходов и оценке их эффективности. Наша работа является первой попыткой создания стандартизированного подхода к дизайну и оценке атак на модели машинного обучения.
## Метод
Мы основываем нашу работу на двух основных элементах: широкой аналитической базе и практических экспериментах. В первую очередь, мы проводим анализ существующих работ по моделированию атак, определяя их уязвимости и ограничения. Затем, мы разрабатываем полную модель угроз, которая позволяет сравнивать различные атаки. Для этого мы создаем фреймворк, позволяющий измерить эффективность атак в зависимости от выбранных моделей и задач. Наши эксперименты основываются на образах изображений и атаках на изображение-классификацию, которые являются наиболее частой конфигурацией в полезных моделях. Мы используем различные модели и архитектуры, чтобы проверить наш фреймворк на ряде сценариев.
## Результаты
Мы проводим ряд экспериментов, чтобы протестировать разные атаки, включая атаки на модели типа ResNet и MobileNet. Мы оцениваем параметры эффективности, такие как точность заглушкой, время тренировки и ресурсы, необходимые для атаки. Из результатов экспериментов мы выявляем характеристики, которые лучше всего подходят для построения эффективных атак. Наши результаты показывают, что наибольшую эффективность могут достичь атаки, использующие больший объем данных и сложные архитектуры моделей. Также мы проводим сравнение существующих методов атаки, чтобы определить, какие модели и задачи являются наиболее подверженными угрозам.
## Значимость
Наши результаты могут быть применены в различных областях, проверяя не только модели изображение-классификации, но и другие модели, такие как текстовые модели и рекомендательные системы. Мы предлагаем новый подход к оценке моделей на уязвимость к моделированию, который может быть использован для проверки безопасности моделей в различных сценариях. Наши рекомендации
Abstract
Model stealing attacks endanger the confidentiality of machine learning
models offered as a service. Although these models are kept secret, a malicious
party can query a model to label data samples and train their own substitute
model, violating intellectual property. While novel attacks in the field are
continually being published, their design and evaluations are not standardised,
making it challenging to compare prior works and assess progress in the field.
This paper is the first to address this gap by providing recommendations for
designing and evaluating model stealing attacks. To this end, we study the
largest group of attacks that rely on training a substitute model -- those
attacking image classification models. We propose the first comprehensive
threat model and develop a framework for attack comparison. Further, we analyse
attack setups from related works to understand which tasks and models have been
studied the most. Based on our findings, we present best practices for attack
development before, during, and beyond experiments and derive an extensive list
of open research questions regarding the evaluation of model stealing attacks.
Our findings and recommendations also transfer to other problem domains, hence
establishing the first generic evaluation methodology for model stealing
attacks.
Ссылки и действия
Дополнительные ресурсы: