On Conformal Machine Unlearning
2508.03245v1
cs.LG, stat.ML
2025-08-09
Авторы:
Yahya Alkhatib, Wee Peng Tay
Резюме на русском
#### Контекст
В настоящее время становится все более важной задачей обеспечения данных конфиденциальности в условиях широкого распространения нормативных требований, таких как GDPR и CCPA. Одной из ключевых задач в этой области является Machine Unlearning (MU) — метод, позволяющий удалять влияние конкретных данных из обученных моделей машинного обучения, сохранив при этом высокую точность на оставшихся данных. Тем не менее, существующие методы MU часто не обладают достаточной статистической гарантией и полагаются на ненадлежащие метрики. Одной из мотиваций для нашего исследования стала необходимость разработки более надежных и эффективных методов MU, которые были бы заложены на твердые статистические основы и не требовали дорогостоящих операций по переучету моделей.
#### Метод
Мы предлагаем новую модель MU, основанную на Conformal Prediction (CP). Наша модель опирается на статистические методы, чтобы построить необходимые гарантии и удалить влияние удаленных данных. Мы вводим критерии, которые определяют, насколько хорошо воспоминающаяся модель отсеивает определенные данные при обучении. Эти критерии позволяют измерять эффективность MU не только с помощью обычных метрик, но и с помощью новой метрики Efficiently Covered Frequency (ECF at c), которая определяет, сколько процентов данных были удалены. Также мы предлагаем метод, оптимизирующий эти критерии и улучшающий эффективность MU.
#### Результаты
Мы проверили нашу модель на широком спектре ситуаций, включая различные модели, данные и сценарии удаления. Мы сравнивали нашу новую модель с другими методами MU. В результате показали, что наш подход предоставляет более высокую точность и эффективность при удалении данных, при этом не требуя дорогостоящих моделей переучета. Мы точно измерили эффективность нашей модели с помощью ECF at c и других метрик, что подтверждает ее высокую полезность в решении задачи MU.
#### Значимость
Наш подход может быть применен в различных сферах, где требуется удаление данных по запросу пользователей, например, в системах медицинского исследования, в кредитных системах и в системах рекомендаций. Наше решение отличается от существующих методов своей надежностью и статистической гарантией. Кроме того, мы показали, что наш подход эффективен не только в случае полного удаления данных, но и в случае удаления подмножества данных. Это делает его полезным для различных сценариев, включая выборку некоторых данных для целей анализа.
#### Выводы
Наше исследование обеспечило новый подход к MU, основанный на Conformal Prediction, что дает более надёжные статистические гарантии. Мы считаем, что наш подход позволяет развивать
Abstract
The increasing demand for data privacy, driven by regulations such as GDPR
and CCPA, has made Machine Unlearning (MU) essential for removing the influence
of specific training samples from machine learning models while preserving
performance on retained data. However, most existing MU methods lack rigorous
statistical guarantees, rely on heuristic metrics, and often require
computationally expensive retraining baselines. To overcome these limitations,
we introduce a new definition for MU based on Conformal Prediction (CP),
providing statistically sound, uncertainty-aware guarantees without the need
for the concept of naive retraining. We formalize conformal criteria that
quantify how often forgotten samples are excluded from CP sets, and propose
empirical metrics,the Efficiently Covered Frequency (ECF at c) and its
complement, the Efficiently Uncovered Frequency (EuCF at d), to measure the
effectiveness of unlearning. We further present a practical unlearning method
designed to optimize these conformal metrics. Extensive experiments across
diverse forgetting scenarios, datasets and models demonstrate the efficacy of
our approach in removing targeted data.
Ссылки и действия
Дополнительные ресурсы: