A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives
2508.15031v1
cs.CR, cs.AI, cs.LG
2025-08-23
Авторы:
Kaixiang Zhao, Lincan Li, Kaize Ding, Neil Zhenqiang Gong, Yue Zhao, Yushun Dong
Резюме на русском
## Контекст
Область исследования сосредоточена на Model Extraction Attacks (MEAs) — систематических нападениях, направленных на копирование функциональности целевой модели машинного обучения (ML) с помощью открыто доступных интерфейсов. Эти атаки становятся возможными из-за роста использования Machine-Learning-as-a-Service (MLaaS), который обеспечивает доступ к мощным моделям ML с помощью простых API. Это продвижение обеспечивает широкий доступ к технологиям ML, однако также создает уязвимости, которые могут быть использованы злоумышленниками для украдения моделей, нарушения конфиденциальности и подрыва безопасности. Эти угрозы касаются не только интеллектуальной собственности, но и безопасности систем и отношений доверия в мире AI. Этот статус MEAs как важной проблемы мотивирует подробное изучение методов атак и защитных стратегий.
## Метод
В статье предлагается новая категоризация MEAs на основе механизмов атак, стратегий защиты и используемых вычислительных парадигм. Описываются различные типы атак, включая black-box и white-box, и выделяются их принципы работы. Методы защиты рассматриваются в рамках синтетического шума, обучения с подкреплением, методов обобщения моделей и других. Архитектура исследования заключается в обобщений и сравнении этих методов, используя различные вычислительные платформы. Эксперименты выполняются с использованием различных данных, таких как CIFAR-10 и ImageNet, чтобы оценить эффективность атак и защитных методов.
## Результаты
Результаты статьи основываются на экспериментальных исследованиях, проведенных на различных моделях и датасетах. Были изучены эффективность различных типов атак, в том числе их успешность в подборе моделей, точность и время выполнения. Также проанализированы защитные методы, включая модели с туннельной верификацией и методы, основанные на метриках защиты. Результаты показали, что некоторые защитные стратегии могут существенно снизить эффективность MEAs, но при этом ухудшают производительность модели или приводят к увеличению времени обучения. Эти результаты подчеркивают трудную проблему: поддержание баланса между безопасностью и производительностью.
## Значимость
Эта работа имеет значительное значение для различных областей, включая AI-безопасность, юридические вопросы и социальные вопросы. Методы защиты, предложенные в статье, могут быть применены в MLaaS-платформах, чтобы уменьшить риск MEAs и защитить интеллектуальную собственность. Более широко, эти решения могут оказаться полезными для индустрии, разработчиков и пользователей, которые используют ML-модели в с
Abstract
Machine learning (ML) models have significantly grown in complexity and
utility, driving advances across multiple domains. However, substantial
computational resources and specialized expertise have historically restricted
their wide adoption. Machine-Learning-as-a-Service (MLaaS) platforms have
addressed these barriers by providing scalable, convenient, and affordable
access to sophisticated ML models through user-friendly APIs. While this
accessibility promotes widespread use of advanced ML capabilities, it also
introduces vulnerabilities exploited through Model Extraction Attacks (MEAs).
Recent studies have demonstrated that adversaries can systematically replicate
a target model's functionality by interacting with publicly exposed interfaces,
posing threats to intellectual property, privacy, and system security. In this
paper, we offer a comprehensive survey of MEAs and corresponding defense
strategies. We propose a novel taxonomy that classifies MEAs according to
attack mechanisms, defense approaches, and computing environments. Our analysis
covers various attack techniques, evaluates their effectiveness, and highlights
challenges faced by existing defenses, particularly the critical trade-off
between preserving model utility and ensuring security. We further assess MEAs
within different computing paradigms and discuss their technical, ethical,
legal, and societal implications, along with promising directions for future
research. This systematic survey aims to serve as a valuable reference for
researchers, practitioners, and policymakers engaged in AI security and
privacy. Additionally, we maintain an online repository continuously updated
with related literature at https://github.com/kzhao5/ModelExtractionPapers.
Ссылки и действия
Дополнительные ресурсы: