Evaluating Identity Leakage in Speaker De-Identification Systems
2508.14012v1
cs.SD, cs.AI
2025-08-21
Авторы:
Seungmin Seo, Oleg Aulov, Afzal Godil, Kevin Mangold
Резюме на русском
## Контекст
Современное цифровое пространство порождает беспрецедентные объемы аудиоданных, содержащих информацию о голосовых идентичностях. Это вызывает возрастующие заботы по поводу конфиденциальности и защиты личной информации. Speaker de-identification (SDI) — научный метод, призванный скрыть голосующего, однако сохранить значимость и интеллектуальность речи. Несмотря на развитие SDI, существуют недостатки в понимании меры защиты личностных данных. Например, остаются неясны аспекты, касающиеся реальности и уровня нежелательного вытекания личностных данных из обработанной речи. Эти затруднения подчеркивают необходимость разработки методик, которые бы позволили более точно оценивать эффективность SDI.
## Метод
Для измерения остатков личностных данных в речи, прошедшей через SDI, предложен бенчмарк. Он определяет три ошибки показателей: Equal Error Rate (EER), Cumulative Match Characteristic (CMC) и Canonical Correlation Analysis (CCA). В качестве используемых данных взяты голосовые примеры, обработанные SDI-системами. Для оценки вклада каждого фактора в результат использован Procrustes Analysis. Этот подход позволяет анализировать как статистические шумы, так и структурные отличия в сигнале, что дает полное представление о работе SDI-систем.
## Результаты
Исследования показали, что все оцененные SDI-системы пропускают идентичность пользователя на разных уровнях. Наиболее эффективная система показала значительное улучшение по сравнению с базовым SDI-системой, однако все же оставалась значительно ниже уровня случайности. Наименее эффективная система показала высокую ошибку в 45% при определении топ-50 говорящих. Доля успешного условного признания противоположного пола и возрастного диапазона была выше среднего, что указывает на устойчивые риски вытекания личных данных.
## Значимость
Результаты имеют значительное значение для разработчиков SDI-систем, которые могут использовать эти показатели для улучшения алгоритмов. Также они интересны для тех, кто занимается юридическими и конфиденциальными вопросами связанными с голосующими. Например, в области защиты прав личности и обеспечения конфиденциальности в различных сферах, включая медицину, органы правопорядка и развлечения. Эти методы могут быть применены для формирования новых стандартов конфиденциальности.
## Выводы
Основными достижениями является разработка методики, позволяющей точно оценивать остаточное вытекание личностных данных в SDI-системах. Результаты показали, что ни одна система не идеальна, и все они не достигают случайных уровней личностного вытекания. Это открывает возможность для дальнейшего
Abstract
Speaker de-identification aims to conceal a speaker's identity while
preserving intelligibility of the underlying speech. We introduce a benchmark
that quantifies residual identity leakage with three complementary error rates:
equal error rate, cumulative match characteristic hit rate, and embedding-space
similarity measured via canonical correlation analysis and Procrustes analysis.
Evaluation results reveal that all state-of-the-art speaker de-identification
systems leak identity information. The highest performing system in our
evaluation performs only slightly better than random guessing, while the lowest
performing system achieves a 45% hit rate within the top 50 candidates based on
CMC. These findings highlight persistent privacy risks in current speaker
de-identification technologies.
Ссылки и действия
Дополнительные ресурсы: