SegReConcat: A Data Augmentation Method for Voice Anonymization Attack

2508.18907v1 cs.SD, cs.AI 2025-08-28
Авторы:

Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See

Резюме на русском

## Контекст Voice anonymization plays eine kritische Rolle in der Gewährleistung der Privatsphäre bei der Nutzung von Sprachdaten. Trotz Fortschritten in dieser Domäne bleiben residuale speaker cues, die das Risiko einer Identifizierung trotz Anonymisierung aufrechterhalten. Diese Herausforderung wird durch die zunehmende Verwendung von voice-based Applications wie intelligenten Assistenten und biometrischen Systemen noch verstärkt. Der Mangel an effektiven Methoden zur Erhöhung der Robustheit von Anonymisierungssystemen gegenüber Attacks erschwert die Entwicklung sicherer Lösungen. Um diese Lücke zu schließen, wird SegReConcat vorgestellt – ein Ansatz zur Datenaugmentation, der speziell für attacker-side Enhancement in automatic speaker verification systems entwickelt wurde. ## Метод SegReConcat ist ein innovativer Methodik für data augmentation, der die Stärke von attacker-side Models bei automatic speaker verification systems erhöht. Der Ansatz segmentiert anonymisierte Sprache auf Wortebene, ordnet die Segmente nach zufälligen oder similarity-based Strategien neu und fügt sie der originalen Utterance hinzu. Diese Technik zielt darauf ab, long-term contextual cues zu disrupten, die sonst den Attacker dabei unterstützen würden, die Identität des Sprechers zu erkennen. Indem SegReConcat dem Attacker ermöglicht, speaker traits aus unterschiedlichen Perspektiven zu lernen, wird die robustheit von Anonymisierungssystemen erhöht. Diese Methode ist flexibel und kann mit verschiedenen anonymisierungstechniken kombiniert werden, um deren Resilience gegenüber de-anonymization Attacks zu verbessern. ## Результаты Die Performance von SegReConcat wurde in der VoicePrivacy Attacker Challenge 2024 evaluiert, wo sie auf sieben anonymisierungssystemen getestet wurde. Der Ansatz zeigte deutliche Verbesserungen bei der De-anonymization auf fünf von sieben Systemen. Insbesondere steigerte SegReConcat die accuracy der Attacks durch den Einsatz von similarity-based Segment Rearrangement, was zeigt, dass die Methode besonders effektiv ist, wenn lange-term contextual cues disruptiert werden. Die Ergebnisse belegen, dass SegReConcat eine signifikante Ergänzung zu bestehenden Data Augmentation Methoden darstellt und die Resilience von Anonymisierungssystemen gegenüber de-anonymization Attacks verbessert. ## Значимость SegReConcat hat weitreichende Anwendungen in der Entwicklung sicherer voice anonymization Lösungen. Indem es den Attacker in die Lage versetzt, robustere de-anonymization Models zu trainieren, trägt es dazu bei, die Privacy von voice data besser zu schützen. Die Methode ist flexibel und kann in verschiedenen Kontexten eingesetzt werden, von biometrischen Systemen bis hin zu intelligenten Assistenten. Durch die Erhöhung der Resilience von Anonymisierungssystemen gegenüber Attacks leistet SegReConcat einen wichtigen Beitrag zur Etablierung von Privacy-Preserving Technologien in areas, in denen Sprachdaten eine wichtige Rolle spielen. ## Выводы SegReConcat stellt eine bedeutende Erweiterung der bestehenden Methoden zur Data Augmentation für voice anonymization dar. Durch die Verwendung von word-level Segmentierung und similarity-based Segment Rearrangement ermöglicht es eine effektive Disruption von long-term contextual cues, die sonst für Attacks genutzt werden könnten. Die Ergebnisse der Evaluation in der VoicePrivacy Attacker Challenge 2024 zeigen, dass SegReConcat eine signifikante Verbesserung der Resilience von Anonymisierungssystemen gegenüber de-anonymization Attacks darstellt. Future Work wird sich auf die Erweiterung der Methodik für andere Anwendungsfälle und die Untersuchung weiterer Strategien zur Maximierung der Effektivität der Datenaugmentation konzentrieren.

Abstract

Anonymization of voice seeks to conceal the identity of the speaker while maintaining the utility of speech data. However, residual speaker cues often persist, which pose privacy risks. We propose SegReConcat, a data augmentation method for attacker-side enhancement of automatic speaker verification systems. SegReConcat segments anonymized speech at the word level, rearranges segments using random or similarity-based strategies to disrupt long-term contextual cues, and concatenates them with the original utterance, allowing an attacker to learn source speaker traits from multiple perspectives. The proposed method has been evaluated in the VoicePrivacy Attacker Challenge 2024 framework across seven anonymization systems, SegReConcat improves de-anonymization on five out of seven systems.

Ссылки и действия