I Stolenly Swear That I Am Up to (No) Good: Design and Evaluation of Model Stealing Attacks

2508.21654v1 cs.CR, cs.LG 2025-09-02
Авторы:

Daryna Oliynyk, Rudolf Mayer, Kathrin Grosse, Andreas Rauber

Резюме на русском

## Контекст Модели машинного обучения, предоставляемые в виде услуги, часто являются ключевым компонентом современных систем. Однако их конфиденциальность грозят атаками "стеленного моделирования" (model stealing attacks), при которых злоумышленник может получить доступ к модели, запросив ее многократно для классификации данных, и использовать эти данные для построения собственной модели. Данная проблема нарушает интеллектуальную собственность и является значительным угрозой безопасности. Несмотря на то, что атаки в этой области продолжают развиваться, существуют проблемы с стандартизацией их разработки и оценкой, что мешает сравнению различных подходов и оценке их эффективности. Наша работа является первой попыткой создания стандартизированного подхода к дизайну и оценке атак на модели машинного обучения. ## Метод Мы основываем нашу работу на двух основных элементах: широкой аналитической базе и практических экспериментах. В первую очередь, мы проводим анализ существующих работ по моделированию атак, определяя их уязвимости и ограничения. Затем, мы разрабатываем полную модель угроз, которая позволяет сравнивать различные атаки. Для этого мы создаем фреймворк, позволяющий измерить эффективность атак в зависимости от выбранных моделей и задач. Наши эксперименты основываются на образах изображений и атаках на изображение-классификацию, которые являются наиболее частой конфигурацией в полезных моделях. Мы используем различные модели и архитектуры, чтобы проверить наш фреймворк на ряде сценариев. ## Результаты Мы проводим ряд экспериментов, чтобы протестировать разные атаки, включая атаки на модели типа ResNet и MobileNet. Мы оцениваем параметры эффективности, такие как точность заглушкой, время тренировки и ресурсы, необходимые для атаки. Из результатов экспериментов мы выявляем характеристики, которые лучше всего подходят для построения эффективных атак. Наши результаты показывают, что наибольшую эффективность могут достичь атаки, использующие больший объем данных и сложные архитектуры моделей. Также мы проводим сравнение существующих методов атаки, чтобы определить, какие модели и задачи являются наиболее подверженными угрозам. ## Значимость Наши результаты могут быть применены в различных областях, проверяя не только модели изображение-классификации, но и другие модели, такие как текстовые модели и рекомендательные системы. Мы предлагаем новый подход к оценке моделей на уязвимость к моделированию, который может быть использован для проверки безопасности моделей в различных сценариях. Наши рекомендации

Abstract

Model stealing attacks endanger the confidentiality of machine learning models offered as a service. Although these models are kept secret, a malicious party can query a model to label data samples and train their own substitute model, violating intellectual property. While novel attacks in the field are continually being published, their design and evaluations are not standardised, making it challenging to compare prior works and assess progress in the field. This paper is the first to address this gap by providing recommendations for designing and evaluating model stealing attacks. To this end, we study the largest group of attacks that rely on training a substitute model -- those attacking image classification models. We propose the first comprehensive threat model and develop a framework for attack comparison. Further, we analyse attack setups from related works to understand which tasks and models have been studied the most. Based on our findings, we present best practices for attack development before, during, and beyond experiments and derive an extensive list of open research questions regarding the evaluation of model stealing attacks. Our findings and recommendations also transfer to other problem domains, hence establishing the first generic evaluation methodology for model stealing attacks.

Ссылки и действия