Causal Fuzzing for Verifying Machine Unlearning
2509.16525v1
cs.SE, cs.AI, cs.LG
2025-09-24
Авторы:
Anna Mazhar, Sainyam Galhotra
Резюме на русском
## Контекст
Область исследования связана с проблемой "machine unlearning", то есть с возможностью "удаления" целевых данных или признаков из обученных моделей машинного обучения. Это важно для обеспечения моделей адаптивности, справедливости и приватности. Однако представление такого удаления требует точного тестирования, так как эффекты могут быть не только прямыми, но и косвенными. Изучение этого вопроса необходимо для создания эффективных методов проверки моделей, которые могут помочь в обеспечении их добросовестного использования в решениях, затрагивающих чувствительные данные.
## Метод
Методология CAF\'E (Causal Fuzzing for Evaluation) основывается на применении принципов каузального анализа для установления зависимостей между целевыми данными и моделью. CAF\'E использует специальный подход к fuzzy testing, который позволяет строить каузальные модели для как прямых, так и косвенных влияний. Она работает в сценариях с блэк-бокс моделями машинного обучения, что делает её применимой в широком круге реальных ситуаций. Архитектура CAF\'E включает в себя слои для выявления зависимостей, оценки их влияния и генерации тестовых сценариев для проверки этих зависимостей.
## Результаты
Используя CAF\'E, проводились эксперименты на пяти различных датасетах, включая текстовые и изображения, и с тремя различными моделями машинного обучения. Результаты показали, что CAF\'E выявляет зависимости, которые были пропущены используемыми ранее методами. На примере изображений, CAF\'E удалось продемонстрировать точность в выявлении косвенного влияния изображений на модель, которое было пропущено другими методами. Также было продемонстрировано, что CAF\'E демонстрирует высокую эффективность с точки зрения вычислительных ресурсов.
## Значимость
Приложение CAF\'E распространяется на широкий круг задач, связанных с проверкой моделей машинного обучения на удаление данных, включая приложения в сферах приватности, справедливости и адаптивности. Особенно важно его использование в сферах, где данные могут иметь чувствительный характер (например, в здравоохранении или финансах). Метод CAF\'E предоставляет более точные и детальные анализы, чем существующие, и может способствовать улучшению стандартов в области тестирования моделей.
## Выводы
Выводы CAF\'E показали, что он успешно детектирует косвенные и прямые влияния в машинном обучении, создавая новые подходы для проверки удаления данных. Будущие исследования будут стремиться расширить CAF\'E для поддержки более сложных сценариев и моделей, таких как глубокое обучение в сложных ситуациях.
Abstract
As machine learning models become increasingly embedded in decision-making
systems, the ability to "unlearn" targeted data or features is crucial for
enhancing model adaptability, fairness, and privacy in models which involves
expensive training. To effectively guide machine unlearning, a thorough testing
is essential. Existing methods for verification of machine unlearning provide
limited insights, often failing in scenarios where the influence is indirect.
In this work, we propose CAF\'E, a new causality based framework that unifies
datapoint- and feature-level unlearning for verification of black-box ML
models. CAF\'E evaluates both direct and indirect effects of unlearning targets
through causal dependencies, providing actionable insights with fine-grained
analysis. Our evaluation across five datasets and three model architectures
demonstrates that CAF\'E successfully detects residual influence missed by
baselines while maintaining computational efficiency.
Ссылки и действия
Дополнительные ресурсы: