Intellectual Property in Graph-Based Machine Learning as a Service: Attacks and Defenses

2508.19641v1 cs.CR, cs.AI 2025-08-29
Авторы:

Lincan Li, Bolin Shen, Chenxi Zhao, Yuxiang Sun, Kaixiang Zhao, Shirui Pan, Yushun Dong

Резюме на русском

## Контекст Граф-структурированные данные представляют собой модели, описывающие неевклидовые отношения и взаимодействия между сущностями. Их объем и сложность возрастают быстрыми темпами, что приводит к появлению сложных граф-моделей машинного обучения (GML). Такие модели требуют больших вычислительных ресурсов для обучения, что делает их ин Intellektual'nymi Soobscheniyami (IP), которые требуют максимальной защиты. С другой стороны, возникла Graph-based Machine-Learning-as-a-Service (GMLaaS), что позволяет использовать модели GML через облачные сервисы. GMLaaS эффективно решает проблему ресурсоемкости обучения, но при этом повышает риск атак на модель и входные данные. Исследование стратегий защиты IP в таком контексте является актуальным и в полной мере мотивирует настоящую работу. ## Метод Наша методология основывается на построении полного каркаса для защиты IP в окружении GMLaaS. Мы развиваем специальную тем taxonomii (таксономии), разделяя угрозы и защитные меры на уровне граф-моделей и графов. Для оценки методов защиты IP предлагается рамка для подробного экспериментального анализа. Был создан набор бенчмарк-данных из различных сфер, предназначенных для тестирования методов защиты. Кроме того, была разработана библиотека PyGIP, обеспечивающая реализацию методов защиты и атак в GMLaaS-системах. ## Результаты Мы проводим эксперименты с разными атаками и защитными методами, используя наши бенчмарк-данные. Эти испытания позволяют изучить эффективность того или иного метода защиты. Основной результат — возможность углубленного понимания проблем защиты IP в GMLaaS-системах и подтверждение реального вклада в развитие этой области. ## Значимость Разработанные техники и инструменты могут применяться в различных сферах, где используются граф-модели — например, в сфере финансов, здравоохранения, социальных сетей и т.д. Защита IP в GMLaaS позволяет улучшить безопасность моделей и данных, что имеет критическую важность для интеллектуальной собственности в машинном обучении. ## Выводы Наша работа является первым подробным обзором угроз и методов защиты IP в GMLaaS. Мы предлагаем таксономию угроз, методы оценки, бенчмарк-данные и основные результаты. Библиотека PyGIP будет инструментом для последующих исследований в этой области. Мы предлагаем направления для будущих исследований, сфокусированные на улучшении защиты IP в граф-моделях машинного обучения.

Abstract

Graph-structured data, which captures non-Euclidean relationships and interactions between entities, is growing in scale and complexity. As a result, training state-of-the-art graph machine learning (GML) models have become increasingly resource-intensive, turning these models and data into invaluable Intellectual Property (IP). To address the resource-intensive nature of model training, graph-based Machine-Learning-as-a-Service (GMLaaS) has emerged as an efficient solution by leveraging third-party cloud services for model development and management. However, deploying such models in GMLaaS also exposes them to potential threats from attackers. Specifically, while the APIs within a GMLaaS system provide interfaces for users to query the model and receive outputs, they also allow attackers to exploit and steal model functionalities or sensitive training data, posing severe threats to the safety of these GML models and the underlying graph data. To address these challenges, this survey systematically introduces the first taxonomy of threats and defenses at the level of both GML model and graph-structured data. Such a tailored taxonomy facilitates an in-depth understanding of GML IP protection. Furthermore, we present a systematic evaluation framework to assess the effectiveness of IP protection methods, introduce a curated set of benchmark datasets across various domains, and discuss their application scopes and future challenges. Finally, we establish an open-sourced versatile library named PyGIP, which evaluates various attack and defense techniques in GMLaaS scenarios and facilitates the implementation of existing benchmark methods. The library resource can be accessed at: https://labrai.github.io/PyGIP. We believe this survey will play a fundamental role in intellectual property protection for GML and provide practical recipes for the GML community.

Ссылки и действия