VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks

2509.18413v1 cs.CR, cs.LG 2025-09-25
Авторы:

Efthymios Tsaprazlis, Thanathai Lertpetchpun, Tiantian Feng, Sai Praneeth Karimireddy, Shrikanth Narayanan

Резюме на русском

## Контекст В последние годы звуковую анонимизацию, особенно в сфере речи, приобрела важность в связи с ростом заботы о конфиденциальности голоса. Эта область стремится защитить сведения о говорящем и его атрибутах, таких как пол и акцент, от несанкционированного доступа, удержав при этом общую смысловую нагрузку речи. Однако существующие подходы к оценке конфиденциальности часто ограничиваются разбором значений Equal Error Rate (EER), которые не достаточно точно отражают фактический риск мошенничества. Мы считаем, что конфиденциальность должна оцениваться в условиях низкого фальшивого положительного рейта (FPR), где даже небольшое число успешных идентификаций может считаться серьезным нарушением конфиденциальности. Наша цель — запустить фреймворк VoxGuard для эффективного оценивания конфиденциальности пользователей и атрибутов в речи. ## Метод VoxGuard основывается на принципах дифференциальной приватности и членства в наборе данных. Он вводит две главные концепции: **User Privacy**, которая защищает от угадывания личности речи, и **Attribute Privacy**, которая охраняет такие атрибуты, как пол и акцент. Методология включает в себя моделирование атак, основанных на максимальной схожести, а также применение дифференциальной приватности для ограничения риска мошенничества. Мы проверяем фреймворк на синтетических и реальных данных, тестируя различные модели звука и алгоритмы, чтобы оценить их уязвимость к атакам на членство. ## Результаты Исследования показывают, что даже после анонимизации голоса, атаки на членство могут получить очень высокую точность, особенно при использовании моделей, настроенных на максимальную схожесть. Например, в реальных условиях, где звуки были анонимными, VoxGuard показал, что многие алгоритмы звука позволяют атакующим восстановить пол или акцент почти с точностью 100%. Показатели EER, хотя и рассматриваются в общем контексте, не отражают полного риска. Наша работа показывает, что низкий FPR является критическим для определения реального уровня утечки информации. ## Значимость VoxGuard может применяться в сферах, где защита конфиденциальности голоса и атрибутов имеет высокую ценность, например, в разговорных системах, медицине, или юридических ситуациях. Этот фреймворк демонстрирует, что EER недостаточно для оценки реального уровня риска, и что гораздо важнее оценивать приватность в условиях малого FPR. Будущие исследования будут направлены на усовершенствование VoxGuard и его применение в различных контекстах, чтобы усилить защиту конфиденциальности в речи. ## Выводы Показатели E

Abstract

Voice anonymization aims to conceal speaker identity and attributes while preserving intelligibility, but current evaluations rely almost exclusively on Equal Error Rate (EER) that obscures whether adversaries can mount high-precision attacks. We argue that privacy should instead be evaluated in the low false-positive rate (FPR) regime, where even a small number of successful identifications constitutes a meaningful breach. To this end, we introduce VoxGuard, a framework grounded in differential privacy and membership inference that formalizes two complementary notions: User Privacy, preventing speaker re-identification, and Attribute Privacy, protecting sensitive traits such as gender and accent. Across synthetic and real datasets, we find that informed adversaries, especially those using fine-tuned models and max-similarity scoring, achieve orders-of-magnitude stronger attacks at low-FPR despite similar EER. For attributes, we show that simple transparent attacks recover gender and accent with near-perfect accuracy even after anonymization. Our results demonstrate that EER substantially underestimates leakage, highlighting the need for low-FPR evaluation, and recommend VoxGuard as a benchmark for evaluating privacy leakage.

Ссылки и действия