SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization
2508.07086v1
cs.SD, cs.LG, eess.AS
2025-08-13
Авторы:
Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li
Резюме на русском
#### Контекст
Голосовые данные широко применяются в различных областях, включая распознавание речи, голосовые помощники и анализ эмоций. Однако такие данные часто содержат конфиденциальную информацию о голосовых сигнатурах, которая может быть использована для идентификации и нарушения личной приватности. Голосовая анонимизация представляется эффективным способом минимизировать этот риск. Несмотря на то, что существуют методы анонимизации, они часто приводят к потере языковых или эмоциональных свойств, что снижает качество аудиозаписи. Другие же предложения недостаточно эффективны против атак, направленных на восстановление идентичности голоса. Наше исследование стремится решить эти проблемы, создав новую модель анонимизации без использования специальных эмбеддингов голоса.
#### Метод
Мы предлагаем SEF-MK, рамфреймворк для анонимизации голоса без использования специальных эмбеддингов. Метод основывается на множестве моделей k-means, каждая из которых обучается на отдельном подмножестве спикеров. В отличие от традиционных подходов, которые применяют один общий k-means-модель, SEF-MK использует множество моделей, выбираемых произвольно для обработки каждого аудиоучастка. Это позволяет обеспечить более высокую гибкость и эффективность в защите голосовых сигнатур. Мы исследуем SEF-MK как с точки зрения голосового аутентификатора, так и с точки зрения пользователя, чтобы оценить его эффективность в защите и риск потери качества.
#### Результаты
Мы провели обширные эксперименты с использованием широко известных голосовых датасетов. Результаты показали, что SEF-MK с множеством k-means моделей значительно улучшает сохранение языковых и эмоциональных свойств воспринимаемых пользователем, в сравнении с одной k-means моделью. Однако риск атак повышается, так как анонимизированные данные становятся более сложными для атаки, но в то же время требуют большего усилия от атакующего. Эти результаты демонстрируют, что SEF-MK предоставляет более сбалансированный подход к приватности голоса, сочетающий в себе качество аудио и защиту от атак.
#### Значимость
Наш подход SEF-MK может быть применен в различных сценариях, где необходима защита голосовых данных, например, в распознавании речи, анализе эмоций или персонализации устройств. Он предлагает несколько преимуществ, в том числе снижение риска идентификации, сохранение полезных показателей аудио и улучшение отказа от централизованных моделей для обеспечения безопасности. Эти преимущества открывают новые возможности для развития безопасных и эффективных систем голосовой анонимизации.
####
Abstract
Voice anonymization protects speaker privacy by concealing identity while
preserving linguistic and paralinguistic content. Self-supervised learning
(SSL) representations encode linguistic features but preserve speaker traits.
We propose a novel speaker-embedding-free framework called SEF-MK. Instead of
using a single k-means model trained on the entire dataset, SEF-MK anonymizes
SSL representations for each utterance by randomly selecting one of multiple
k-means models, each trained on a different subset of speakers. We explore this
approach from both attacker and user perspectives. Extensive experiments show
that, compared to a single k-means model, SEF-MK with multiple k-means models
better preserves linguistic and emotional content from the user's viewpoint.
However, from the attacker's perspective, utilizing multiple k-means models
boosts the effectiveness of privacy attacks. These insights can aid users in
designing voice anonymization systems to mitigate attacker threats.
Ссылки и действия
Дополнительные ресурсы: