DarkStream: real-time speech anonymization with low latency
2509.04667v1
eess.AS, cs.CL, cs.LG
2025-09-09
Авторы:
Waris Quamer, Ricardo Gutierrez-Osuna
Резюме на русском
## Контекст
В modern era цифровых коммуникаций, защита частности говорящих становится ключевым вопросом, особенно при реализации реального времени. Speech anonymization становится важным средством для защиты идентичности говорящих в аудио- и видеоконтенте. Существующие методы, такие как возможность заменить голос на синтезированный, который не требует защиты идентичности, либо не учитывают другие нюансы, такие как языковые контексты. Такие проблемы могут привести к коллизиям в защите идентичности и потерей языковой интеллектуальности (WER). Таким образом, нужно разработать решение, которое обеспечит эффективную защиту идентичности без ущерба для языкового контента. DarkStream предлагает innovative approach, который решает эти проблемы в реальном времени.
## Метод
DarkStream — это streaming speech synthesis model, который реализует real-time speaker anonymization. Он объединяет causal waveform encoder, который захватывает звуковые сигналы в реальном времени, short lookahead buffer для повышения accuracy при минимальных задержках, и transformer-based contextual layers для улучшения content encoding. Чтобы уменьшить inference time, model generates waveforms непосредственно с помощью neural vocoder, что устраняет intermediate mel-spectrogram conversions. Для защиты идентичности, DarkStream инжектирует GAN-generated pseudo-speaker embedding в linguistic features, полученные из content encoder. Этот approach обеспечивает strong anonymization при минимальном ущербе для linguistic intelligibility.
## Результаты
Evaluations показывают, что DarkStream достигает strong anonymization, с EER (Equal Error Rate) speaker verification на значение около 50% в lazy-informed attack сценарии, что соответствует near-chance performance. Такое значение EER является критически важным для защиты идентичности. И, при этом, linguistic intelligibility сохраняется на удовлетворительном уровне, с WER (Word Error Rate) в районе 9%. Эти результаты указывают на баланс между low-latency, robust privacy и minimal intelligibility degradation, что делает DarkStream практичным решением для privacy-preserving real-time speech communication.
## Значимость
DarkStream может быть применен в различных областях, таких как real-time communication, voice assistants, secure speech processing, и другие. Оно предоставляет несколько преимуществ, таких как:
- **High-quality anonymization**, сохраняющая языковую интеллектуальность.
- **Efficiency**, посредством removal intermediate mel-spectrogram conversions.
- **Low-latency решение**, которое может быть использовано в real-time сценариях.
Potential impact включает в себя улучшение privacy в digital communication, защиту частности говорящих, и повышение уровня security в системах voice authentication и других.
## Выводы
DarkStream предлагает innovative approach для real-time speech anonymization, который достигает strong anonymization с низкой latency и сохраняет linguistic intelligibility. Это решение может иметь важное применение в различных областях, таких как voice assistants, secure communication, и другие. Будущие исследования будут сконцентрированы на улучшении model robustness, увеличении scalability, и улучшении звукового качества для более широкого применения в digital communication.
Abstract
We propose DarkStream, a streaming speech synthesis model for real-time
speaker anonymization. To improve content encoding under strict latency
constraints, DarkStream combines a causal waveform encoder, a short lookahead
buffer, and transformer-based contextual layers. To further reduce inference
time, the model generates waveforms directly via a neural vocoder, thus
removing intermediate mel-spectrogram conversions. Finally, DarkStream
anonymizes speaker identity by injecting a GAN-generated pseudo-speaker
embedding into linguistic features from the content encoder. Evaluations show
our model achieves strong anonymization, yielding close to 50% speaker
verification EER (near-chance performance) on the lazy-informed attack
scenario, while maintaining acceptable linguistic intelligibility (WER within
9%). By balancing low-latency, robust privacy, and minimal intelligibility
degradation, DarkStream provides a practical solution for privacy-preserving
real-time speech communication.
Ссылки и действия
Дополнительные ресурсы: