Evaluating Identity Leakage in Speaker De-Identification Systems

2508.14012v1 cs.SD, cs.AI 2025-08-21
Авторы:

Seungmin Seo, Oleg Aulov, Afzal Godil, Kevin Mangold

Резюме на русском

## Контекст Современное цифровое пространство порождает беспрецедентные объемы аудиоданных, содержащих информацию о голосовых идентичностях. Это вызывает возрастующие заботы по поводу конфиденциальности и защиты личной информации. Speaker de-identification (SDI) — научный метод, призванный скрыть голосующего, однако сохранить значимость и интеллектуальность речи. Несмотря на развитие SDI, существуют недостатки в понимании меры защиты личностных данных. Например, остаются неясны аспекты, касающиеся реальности и уровня нежелательного вытекания личностных данных из обработанной речи. Эти затруднения подчеркивают необходимость разработки методик, которые бы позволили более точно оценивать эффективность SDI. ## Метод Для измерения остатков личностных данных в речи, прошедшей через SDI, предложен бенчмарк. Он определяет три ошибки показателей: Equal Error Rate (EER), Cumulative Match Characteristic (CMC) и Canonical Correlation Analysis (CCA). В качестве используемых данных взяты голосовые примеры, обработанные SDI-системами. Для оценки вклада каждого фактора в результат использован Procrustes Analysis. Этот подход позволяет анализировать как статистические шумы, так и структурные отличия в сигнале, что дает полное представление о работе SDI-систем. ## Результаты Исследования показали, что все оцененные SDI-системы пропускают идентичность пользователя на разных уровнях. Наиболее эффективная система показала значительное улучшение по сравнению с базовым SDI-системой, однако все же оставалась значительно ниже уровня случайности. Наименее эффективная система показала высокую ошибку в 45% при определении топ-50 говорящих. Доля успешного условного признания противоположного пола и возрастного диапазона была выше среднего, что указывает на устойчивые риски вытекания личных данных. ## Значимость Результаты имеют значительное значение для разработчиков SDI-систем, которые могут использовать эти показатели для улучшения алгоритмов. Также они интересны для тех, кто занимается юридическими и конфиденциальными вопросами связанными с голосующими. Например, в области защиты прав личности и обеспечения конфиденциальности в различных сферах, включая медицину, органы правопорядка и развлечения. Эти методы могут быть применены для формирования новых стандартов конфиденциальности. ## Выводы Основными достижениями является разработка методики, позволяющей точно оценивать остаточное вытекание личностных данных в SDI-системах. Результаты показали, что ни одна система не идеальна, и все они не достигают случайных уровней личностного вытекания. Это открывает возможность для дальнейшего

Abstract

Speaker de-identification aims to conceal a speaker's identity while preserving intelligibility of the underlying speech. We introduce a benchmark that quantifies residual identity leakage with three complementary error rates: equal error rate, cumulative match characteristic hit rate, and embedding-space similarity measured via canonical correlation analysis and Procrustes analysis. Evaluation results reveal that all state-of-the-art speaker de-identification systems leak identity information. The highest performing system in our evaluation performs only slightly better than random guessing, while the lowest performing system achieves a 45% hit rate within the top 50 candidates based on CMC. These findings highlight persistent privacy risks in current speaker de-identification technologies.

Ссылки и действия