Causal Fuzzing for Verifying Machine Unlearning

2509.16525v1 cs.SE, cs.AI, cs.LG 2025-09-24
Авторы:

Anna Mazhar, Sainyam Galhotra

Резюме на русском

## Контекст Область исследования связана с проблемой "machine unlearning", то есть с возможностью "удаления" целевых данных или признаков из обученных моделей машинного обучения. Это важно для обеспечения моделей адаптивности, справедливости и приватности. Однако представление такого удаления требует точного тестирования, так как эффекты могут быть не только прямыми, но и косвенными. Изучение этого вопроса необходимо для создания эффективных методов проверки моделей, которые могут помочь в обеспечении их добросовестного использования в решениях, затрагивающих чувствительные данные. ## Метод Методология CAF\'E (Causal Fuzzing for Evaluation) основывается на применении принципов каузального анализа для установления зависимостей между целевыми данными и моделью. CAF\'E использует специальный подход к fuzzy testing, который позволяет строить каузальные модели для как прямых, так и косвенных влияний. Она работает в сценариях с блэк-бокс моделями машинного обучения, что делает её применимой в широком круге реальных ситуаций. Архитектура CAF\'E включает в себя слои для выявления зависимостей, оценки их влияния и генерации тестовых сценариев для проверки этих зависимостей. ## Результаты Используя CAF\'E, проводились эксперименты на пяти различных датасетах, включая текстовые и изображения, и с тремя различными моделями машинного обучения. Результаты показали, что CAF\'E выявляет зависимости, которые были пропущены используемыми ранее методами. На примере изображений, CAF\'E удалось продемонстрировать точность в выявлении косвенного влияния изображений на модель, которое было пропущено другими методами. Также было продемонстрировано, что CAF\'E демонстрирует высокую эффективность с точки зрения вычислительных ресурсов. ## Значимость Приложение CAF\'E распространяется на широкий круг задач, связанных с проверкой моделей машинного обучения на удаление данных, включая приложения в сферах приватности, справедливости и адаптивности. Особенно важно его использование в сферах, где данные могут иметь чувствительный характер (например, в здравоохранении или финансах). Метод CAF\'E предоставляет более точные и детальные анализы, чем существующие, и может способствовать улучшению стандартов в области тестирования моделей. ## Выводы Выводы CAF\'E показали, что он успешно детектирует косвенные и прямые влияния в машинном обучении, создавая новые подходы для проверки удаления данных. Будущие исследования будут стремиться расширить CAF\'E для поддержки более сложных сценариев и моделей, таких как глубокое обучение в сложных ситуациях.

Abstract

As machine learning models become increasingly embedded in decision-making systems, the ability to "unlearn" targeted data or features is crucial for enhancing model adaptability, fairness, and privacy in models which involves expensive training. To effectively guide machine unlearning, a thorough testing is essential. Existing methods for verification of machine unlearning provide limited insights, often failing in scenarios where the influence is indirect. In this work, we propose CAF\'E, a new causality based framework that unifies datapoint- and feature-level unlearning for verification of black-box ML models. CAF\'E evaluates both direct and indirect effects of unlearning targets through causal dependencies, providing actionable insights with fine-grained analysis. Our evaluation across five datasets and three model architectures demonstrates that CAF\'E successfully detects residual influence missed by baselines while maintaining computational efficiency.

Ссылки и действия