A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives

2508.15031v1 cs.CR, cs.AI, cs.LG 2025-08-23
Авторы:

Kaixiang Zhao, Lincan Li, Kaize Ding, Neil Zhenqiang Gong, Yue Zhao, Yushun Dong

Резюме на русском

## Контекст Область исследования сосредоточена на Model Extraction Attacks (MEAs) — систематических нападениях, направленных на копирование функциональности целевой модели машинного обучения (ML) с помощью открыто доступных интерфейсов. Эти атаки становятся возможными из-за роста использования Machine-Learning-as-a-Service (MLaaS), который обеспечивает доступ к мощным моделям ML с помощью простых API. Это продвижение обеспечивает широкий доступ к технологиям ML, однако также создает уязвимости, которые могут быть использованы злоумышленниками для украдения моделей, нарушения конфиденциальности и подрыва безопасности. Эти угрозы касаются не только интеллектуальной собственности, но и безопасности систем и отношений доверия в мире AI. Этот статус MEAs как важной проблемы мотивирует подробное изучение методов атак и защитных стратегий. ## Метод В статье предлагается новая категоризация MEAs на основе механизмов атак, стратегий защиты и используемых вычислительных парадигм. Описываются различные типы атак, включая black-box и white-box, и выделяются их принципы работы. Методы защиты рассматриваются в рамках синтетического шума, обучения с подкреплением, методов обобщения моделей и других. Архитектура исследования заключается в обобщений и сравнении этих методов, используя различные вычислительные платформы. Эксперименты выполняются с использованием различных данных, таких как CIFAR-10 и ImageNet, чтобы оценить эффективность атак и защитных методов. ## Результаты Результаты статьи основываются на экспериментальных исследованиях, проведенных на различных моделях и датасетах. Были изучены эффективность различных типов атак, в том числе их успешность в подборе моделей, точность и время выполнения. Также проанализированы защитные методы, включая модели с туннельной верификацией и методы, основанные на метриках защиты. Результаты показали, что некоторые защитные стратегии могут существенно снизить эффективность MEAs, но при этом ухудшают производительность модели или приводят к увеличению времени обучения. Эти результаты подчеркивают трудную проблему: поддержание баланса между безопасностью и производительностью. ## Значимость Эта работа имеет значительное значение для различных областей, включая AI-безопасность, юридические вопросы и социальные вопросы. Методы защиты, предложенные в статье, могут быть применены в MLaaS-платформах, чтобы уменьшить риск MEAs и защитить интеллектуальную собственность. Более широко, эти решения могут оказаться полезными для индустрии, разработчиков и пользователей, которые используют ML-модели в с

Abstract

Machine learning (ML) models have significantly grown in complexity and utility, driving advances across multiple domains. However, substantial computational resources and specialized expertise have historically restricted their wide adoption. Machine-Learning-as-a-Service (MLaaS) platforms have addressed these barriers by providing scalable, convenient, and affordable access to sophisticated ML models through user-friendly APIs. While this accessibility promotes widespread use of advanced ML capabilities, it also introduces vulnerabilities exploited through Model Extraction Attacks (MEAs). Recent studies have demonstrated that adversaries can systematically replicate a target model's functionality by interacting with publicly exposed interfaces, posing threats to intellectual property, privacy, and system security. In this paper, we offer a comprehensive survey of MEAs and corresponding defense strategies. We propose a novel taxonomy that classifies MEAs according to attack mechanisms, defense approaches, and computing environments. Our analysis covers various attack techniques, evaluates their effectiveness, and highlights challenges faced by existing defenses, particularly the critical trade-off between preserving model utility and ensuring security. We further assess MEAs within different computing paradigms and discuss their technical, ethical, legal, and societal implications, along with promising directions for future research. This systematic survey aims to serve as a valuable reference for researchers, practitioners, and policymakers engaged in AI security and privacy. Additionally, we maintain an online repository continuously updated with related literature at https://github.com/kzhao5/ModelExtractionPapers.

Ссылки и действия