What If, But Privately: Private Counterfactual Retrieval

2508.03681v1 cs.IT, cs.CR, cs.LG, cs.NI, eess.SP, math.IT 2025-08-09
Авторы:

Shreya Meel, Mohamed Nomeir, Pasan Dissanayake, Sanghamitra Dutta, Sennur Ulukus

Резюме на русском

## Контекст Современные машинные обучающие модели часто используются в высокогранных приложениях, таких как финансы, здравоохранение и реклама. Однако эти модели часто являются "черными ящиками", что создает необходимость в транспарентности и объясняемости их решений. Одним из способов обеспечить объясняемость является предоставление **контрфактных выводов** — хорошо понятных, интуитивных объяснений, помогающих пользователю понять, почему модель пришла к конкретному выводу. Однако предоставление контрфактных выводов также создает риски для конфиденциальности: обе стороны — пользователь и институция — могут потерять конфиденциальную информацию. В данной работе нас интересует конфиденциальность пользователя, который хочет получить контрфактные выводы без раскрытия своего признакового вектора институции. Наша цель — разработать методы, обеспечивающие информационно-теоретическую конфиденциальность пользователя, при этом поддерживая высокую точность результатов. ## Метод Работа предлагает развитие фреймворка для **приватного контрфактного поиска (Private Counterfactual Retrieval, PCR)**. Методология основывается на идее шифрования признакового вектора пользователя и его защиты от институции. 1. **Основная идея**: Используется **криптографический механизм**, позволяющий институции проводить поиск в базе данных без знания того, какой именно вектор использовался пользователем. 2. **Расширения**: Базовый метод был расширен для учета **неизменяемых признаков** (например, персональных данных, которые не могут быть изменены). Для этого разработаны механизмы, позволяющие учитывать неизменяемые признаки, при этом сохраняя конфиденциальность всей признаковой модели. 3. **Преобразования**: Включена возможность учитывать **предпочтения пользователя** в преобразовании признаков, чтобы получить более действительные и применимые контрфактные выводы. На каждом этапе разработаны меры, позволяющие оценивать уровень конфиденциальности и точности результатов. ## Результаты Для оценки эффективности разработанных схем проведены эксперименты на синтетических и реальных данных. Были измерены: - **Конфиденциальность**: Оценка уровня информационно-теоретической защиты признаков пользователя. - **Точность**: Успешность найденных контрфактных выводов по сравнению с базовыми схемами. - **Затраты ресурсов**: Время и вычислительные ресурсы, необходимые для обработки запроса. Результаты показали: - Улучшение конфиденциальности в сравнении с базовым подходом. - Уменьшение утечки информации о базе данных инсти

Abstract

Transparency and explainability are two important aspects to be considered when employing black-box machine learning models in high-stake applications. Providing counterfactual explanations is one way of catering this requirement. However, this also poses a threat to the privacy of the institution that is providing the explanation, as well as the user who is requesting it. In this work, we are primarily concerned with the user's privacy who wants to retrieve a counterfactual instance, without revealing their feature vector to the institution. Our framework retrieves the exact nearest neighbor counterfactual explanation from a database of accepted points while achieving perfect, information-theoretic, privacy for the user. First, we introduce the problem of private counterfactual retrieval (PCR) and propose a baseline PCR scheme that keeps the user's feature vector information-theoretically private from the institution. Building on this, we propose two other schemes that reduce the amount of information leaked about the institution database to the user, compared to the baseline scheme. Second, we relax the assumption of mutability of all features, and consider the setting of immutable PCR (I-PCR). Here, the user retrieves the nearest counterfactual without altering a private subset of their features, which constitutes the immutable set, while keeping their feature vector and immutable set private from the institution. For this, we propose two schemes that preserve the user's privacy information-theoretically, but ensure varying degrees of database privacy. Third, we extend our PCR and I-PCR schemes to incorporate user's preference on transforming their attributes, so that a more actionable explanation can be received. Finally, we present numerical results to support our theoretical findings, and compare the database leakage of the proposed schemes.

Ссылки и действия