SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization

2508.07086v1 cs.SD, cs.LG, eess.AS 2025-08-13

Авторы:

Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li

Резюме на русском

#### Контекст Голосовые данные широко применяются в различных областях, включая распознавание речи, голосовые помощники и анализ эмоций. Однако такие данные часто содержат конфиденциальную информацию о голосовых сигнатурах, которая может быть использована для идентификации и нарушения личной приватности. Голосовая анонимизация представляется эффективным способом минимизировать этот риск. Несмотря на то, что существуют методы анонимизации, они часто приводят к потере языковых или эмоциональных свойств, что снижает качество аудиозаписи. Другие же предложения недостаточно эффективны против атак, направленных на восстановление идентичности голоса. Наше исследование стремится решить эти проблемы, создав новую модель анонимизации без использования специальных эмбеддингов голоса. #### Метод Мы предлагаем SEF-MK, рамфреймворк для анонимизации голоса без использования специальных эмбеддингов. Метод основывается на множестве моделей k-means, каждая из которых обучается на отдельном подмножестве спикеров. В отличие от традиционных подходов, которые применяют один общий k-means-модель, SEF-MK использует множество моделей, выбираемых произвольно для обработки каждого аудиоучастка. Это позволяет обеспечить более высокую гибкость и эффективность в защите голосовых сигнатур. Мы исследуем SEF-MK как с точки зрения голосового аутентификатора, так и с точки зрения пользователя, чтобы оценить его эффективность в защите и риск потери качества. #### Результаты Мы провели обширные эксперименты с использованием широко известных голосовых датасетов. Результаты показали, что SEF-MK с множеством k-means моделей значительно улучшает сохранение языковых и эмоциональных свойств воспринимаемых пользователем, в сравнении с одной k-means моделью. Однако риск атак повышается, так как анонимизированные данные становятся более сложными для атаки, но в то же время требуют большего усилия от атакующего. Эти результаты демонстрируют, что SEF-MK предоставляет более сбалансированный подход к приватности голоса, сочетающий в себе качество аудио и защиту от атак. #### Значимость Наш подход SEF-MK может быть применен в различных сценариях, где необходима защита голосовых данных, например, в распознавании речи, анализе эмоций или персонализации устройств. Он предлагает несколько преимуществ, в том числе снижение риска идентификации, сохранение полезных показателей аудио и улучшение отказа от централизованных моделей для обеспечения безопасности. Эти преимущества открывают новые возможности для развития безопасных и эффективных систем голосовой анонимизации. ####

Abstract

Voice anonymization protects speaker privacy by concealing identity while preserving linguistic and paralinguistic content. Self-supervised learning (SSL) representations encode linguistic features but preserve speaker traits. We propose a novel speaker-embedding-free framework called SEF-MK. Instead of using a single k-means model trained on the entire dataset, SEF-MK anonymizes SSL representations for each utterance by randomly selecting one of multiple k-means models, each trained on a different subset of speakers. We explore this approach from both attacker and user perspectives. Extensive experiments show that, compared to a single k-means model, SEF-MK with multiple k-means models better preserves linguistic and emotional content from the user's viewpoint. However, from the attacker's perspective, utilizing multiple k-means models boosts the effectiveness of privacy attacks. These insights can aid users in designing voice anonymization systems to mitigate attacker threats.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report

Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power E...

ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music...

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decodi...

Transcribing Rhythmic Patterns of the Guitar Track in Polyphonic Music

Навигация