Amulet: a Python Library for Assessing Interactions Among ML Defenses and Risks

2509.12386v1 cs.CR, cs.AI 2025-09-18

Авторы:

Asim Waheed, Vasisht Duddu, Rui Zhang, Sebastian Szyller, N. Asokan

Резюме на русском

## Контекст Модели машинного обучения (ML) часто сталкиваются с различными рисками, включая угрозы безопасности, приватности и справедливости. Чтобы сдерживать эти угрозы, разработчики применяют различные меры защиты. Однако некоторые защитные механизмы могут привести к ненамеренным побочным эффектам, повышая чувствительность модели к другим несвязанным рискам. Это называется непредвиденными взаимодействиями. Несмотря на то, что понимание таких взаимодействий важно для разработки безопасных и эффективных моделей, существуют недостатки в существующих инструментах для их изучения. Требуется инструментарий, который поможет оценивать эти взаимодействия на больших масштабах и разрабатывать новые защитные механизмы, избегая негативных побочных эффектов. ## Метод AMULET — это Python-библиотека, разработанная для полного оценивания взаимодействий между мерами защиты и рисками в моделях машинного обучения. Она основывается на модульном дизайне, позволяющем легко добавлять новые модели защиты, атаки и метрики. Библиотека включает многочисленные типы рисков (безопасность, приватность, справедливость) и предоставляет широкий набор методologi и алгоритмов для их эффективного оценивания. Архитектура AMULET была спроектирована с учетом принципов расширяемости и повторного использования кода, чтобы облегчить ее применение в различных контекстах. ## Результаты AMULET была протестирована на различных моделях и атаках, позволяя проанализировать ряд непредвиденных взаимодействий. Она позволяет проводить сравнительные тесты различных методологий защиты и оценивать их эффективность в защите моделей от разных рисков. Эксперименты продемонстрировали, что AMULET обеспечивает высокую точность в оценке непредвиденных взаимодействий и позволяет легко добавлять новые атаки и защитные механизмы благодаря своей модульной структуре. ## Значимость AMULET может быть использована в различных областях, включая разработку безопасных моделей ML, оценку рисков в критически важных приложениях и соответствие нормативным требованиям. Она позволяет разработчикам и исследователям эффективно оценивать непредвиденные взаимодействия и создавать более надежные модели. Этот инструмент также может способствовать созданию новых защитных механизмов, которые не только защищают от преднамеренных угроз, но и избегают создания новых рисков. ## Выводы AMULET является первой полностью расширяемой и полнофункциональной библиотекой для оценки непредвиденных взаимодействий в моделях ML. Она обеспечивает комплексный подход для изучения рисков, позволяя разработчикам и исследо

Abstract

ML models are susceptible to risks to security, privacy, and fairness. Several defenses are designed to protect against their intended risks, but can inadvertently affect susceptibility to other unrelated risks, known as unintended interactions. Several jurisdictions are preparing ML regulatory frameworks that require ML practitioners to assess the susceptibility of ML models to different risks. A library for valuating unintended interactions that can be used by (a) practitioners to evaluate unintended interactions at scale prior to model deployment and (b) researchers to design defenses which do not suffer from an unintended increase in unrelated risks. Ideally, such a library should be i) comprehensive by including representative attacks, defenses and metrics for different risks, ii) extensible to new modules due to its modular design, iii) consistent with a user-friendly API template for inputs and outputs, iv) applicable to evaluate previously unexplored unintended interactions. We present AMULET, a Python library that covers risks to security, privacy, and fairness, which satisfies all these requirements. AMULET can be used to evaluate unexplored unintended interactions, compare effectiveness between defenses or attacks, and include new attacks and defenses.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Amulet: a Python Library for Assessing Interactions Among ML Defenses and Risks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация