Amulet: a Python Library for Assessing Interactions Among ML Defenses and Risks
2509.12386v1
cs.CR, cs.AI
2025-09-18
Авторы:
Asim Waheed, Vasisht Duddu, Rui Zhang, Sebastian Szyller, N. Asokan
Резюме на русском
## Контекст
Модели машинного обучения (ML) часто сталкиваются с различными рисками, включая угрозы безопасности, приватности и справедливости. Чтобы сдерживать эти угрозы, разработчики применяют различные меры защиты. Однако некоторые защитные механизмы могут привести к ненамеренным побочным эффектам, повышая чувствительность модели к другим несвязанным рискам. Это называется непредвиденными взаимодействиями. Несмотря на то, что понимание таких взаимодействий важно для разработки безопасных и эффективных моделей, существуют недостатки в существующих инструментах для их изучения. Требуется инструментарий, который поможет оценивать эти взаимодействия на больших масштабах и разрабатывать новые защитные механизмы, избегая негативных побочных эффектов.
## Метод
AMULET — это Python-библиотека, разработанная для полного оценивания взаимодействий между мерами защиты и рисками в моделях машинного обучения. Она основывается на модульном дизайне, позволяющем легко добавлять новые модели защиты, атаки и метрики. Библиотека включает многочисленные типы рисков (безопасность, приватность, справедливость) и предоставляет широкий набор методologi и алгоритмов для их эффективного оценивания. Архитектура AMULET была спроектирована с учетом принципов расширяемости и повторного использования кода, чтобы облегчить ее применение в различных контекстах.
## Результаты
AMULET была протестирована на различных моделях и атаках, позволяя проанализировать ряд непредвиденных взаимодействий. Она позволяет проводить сравнительные тесты различных методологий защиты и оценивать их эффективность в защите моделей от разных рисков. Эксперименты продемонстрировали, что AMULET обеспечивает высокую точность в оценке непредвиденных взаимодействий и позволяет легко добавлять новые атаки и защитные механизмы благодаря своей модульной структуре.
## Значимость
AMULET может быть использована в различных областях, включая разработку безопасных моделей ML, оценку рисков в критически важных приложениях и соответствие нормативным требованиям. Она позволяет разработчикам и исследователям эффективно оценивать непредвиденные взаимодействия и создавать более надежные модели. Этот инструмент также может способствовать созданию новых защитных механизмов, которые не только защищают от преднамеренных угроз, но и избегают создания новых рисков.
## Выводы
AMULET является первой полностью расширяемой и полнофункциональной библиотекой для оценки непредвиденных взаимодействий в моделях ML. Она обеспечивает комплексный подход для изучения рисков, позволяя разработчикам и исследо
Abstract
ML models are susceptible to risks to security, privacy, and fairness.
Several defenses are designed to protect against their intended risks, but can
inadvertently affect susceptibility to other unrelated risks, known as
unintended interactions. Several jurisdictions are preparing ML regulatory
frameworks that require ML practitioners to assess the susceptibility of ML
models to different risks. A library for valuating unintended interactions that
can be used by (a) practitioners to evaluate unintended interactions at scale
prior to model deployment and (b) researchers to design defenses which do not
suffer from an unintended increase in unrelated risks. Ideally, such a library
should be i) comprehensive by including representative attacks, defenses and
metrics for different risks, ii) extensible to new modules due to its modular
design, iii) consistent with a user-friendly API template for inputs and
outputs, iv) applicable to evaluate previously unexplored unintended
interactions. We present AMULET, a Python library that covers risks to
security, privacy, and fairness, which satisfies all these requirements. AMULET
can be used to evaluate unexplored unintended interactions, compare
effectiveness between defenses or attacks, and include new attacks and
defenses.
Ссылки и действия
Дополнительные ресурсы: