Inducing Uncertainty for Test-Time Privacy

2509.11625v1 cs.LG, cs.AI, cs.CR 2025-09-17
Авторы:

Muhammad H. Ashiq, Peter Triantafillou, Hung Yun Tseng, Grigoris G. Chrysos

Резюме на русском

## Контекст Область исследований связана с проблемами защиты конфиденциальности данных в обучении машинных моделей. Несмотря на то, что методы unlearning предназначены для удаления влияния конкретных данных из модели, текущие подходы часто оставляют модель открытой для атак адверсарных агентов. Таких атак легко могут воспользоваться злоумышленники, используя высокую уверенность модели в предсказаниях для защищенных данных, даже после unlearning. Эта проблема называется **test-time privacy**. Она относится к ситуациям, когда модель, несмотря на unlearning, продолжает давать высокоуверенные, но неверные предсказания на нежелательных входных данных. Наша мотивация заключается в создании метода, который не только уберет влияние защищенных данных, но и искусственно усилит неопределенность модели для таких входных данных. ## Метод Мы предлагаем алгоритм, который изменяет веса модели для создания максимальной неопределенности в отношении защищенных данных. Основная идея заключается в использовании **Pareto-оптимального подхода**, который сбалансированно оптимизирует две цели: 1. **Предсказательная точность** для всех остальных данных, кроме защищенных. 2. **Неопределенность** для защищенных данных, чтобы атаки на основе высокой уверенности были неэффективны. Мы также предлагаем **сертифицируемую аппроксимацию** для обеспечения $(\varepsilon, \delta)$-защиты, даже если подход не является конвексиантным. Наш подход характеризуется узкой теоретической характеристикой, которая рассматривает торговую оферту между защитой (privacy) и точностью предсказаний (utility). ## Результаты Мы проверили наш алгоритм на нескольких изображениях и recognition бенчмарках. Результаты показали, что: - Модель сохраняет более $98\%$ точности на всех данных, кроме защищенных, что является стандартным подходом в таких задачах. - **Прирост неопределенности** в отношении защищенных данных вышел в 3 раза дальше, чем у "базового" подхода (pretraining). - Наши результаты подтвердили, что модель предсказывает на защищенных данных с высокой долей неверных ответов, что снижает возможность атак адверсарных агентов. ## Значимость **Применение** нашего подхода может распространяться в ситуациях, где важно **защитить конфиденциальность отдельных пользователей**, например, в задачах медицинского анализа данных, частной информации или обработки данных финансового характера. **Преимущества** подхода заключаются в том, что он не только обеспечивает защиту от тестирующих атак, но также сохраняет качество предсказаний на остальных данных. Это делает его более универсальным в сравнении с конкурирующими способами. **Влияние** на области искусств

Abstract

Unlearning is the predominant method for removing the influence of data in machine learning models. However, even after unlearning, models often continue to produce the same predictions on the unlearned data with high confidence. This persistent behavior can be exploited by adversaries using confident model predictions on incorrect or obsolete data to harm users. We call this threat model, which unlearning fails to protect against, *test-time privacy*. In particular, an adversary with full model access can bypass any naive defenses which ensure test-time privacy. To address this threat, we introduce an algorithm which perturbs model weights to induce maximal uncertainty on protected instances while preserving accuracy on the rest of the instances. Our core algorithm is based on finetuning with a Pareto optimal objective that explicitly balances test-time privacy against utility. We also provide a certifiable approximation algorithm which achieves $(\varepsilon, \delta)$ guarantees without convexity assumptions. We then prove a tight, non-vacuous bound that characterizes the privacy-utility tradeoff that our algorithms incur. Empirically, our method obtains $>3\times$ stronger uncertainty than pretraining with $<0.2\%$ drops in accuracy on various image recognition benchmarks. Altogether, this framework provides a tool to guarantee additional protection to end users.

Ссылки и действия