DarkStream: real-time speech anonymization with low latency

2509.04667v1 eess.AS, cs.CL, cs.LG 2025-09-09
Авторы:

Waris Quamer, Ricardo Gutierrez-Osuna

Резюме на русском

## Контекст В modern era цифровых коммуникаций, защита частности говорящих становится ключевым вопросом, особенно при реализации реального времени. Speech anonymization становится важным средством для защиты идентичности говорящих в аудио- и видеоконтенте. Существующие методы, такие как возможность заменить голос на синтезированный, который не требует защиты идентичности, либо не учитывают другие нюансы, такие как языковые контексты. Такие проблемы могут привести к коллизиям в защите идентичности и потерей языковой интеллектуальности (WER). Таким образом, нужно разработать решение, которое обеспечит эффективную защиту идентичности без ущерба для языкового контента. DarkStream предлагает innovative approach, который решает эти проблемы в реальном времени. ## Метод DarkStream — это streaming speech synthesis model, который реализует real-time speaker anonymization. Он объединяет causal waveform encoder, который захватывает звуковые сигналы в реальном времени, short lookahead buffer для повышения accuracy при минимальных задержках, и transformer-based contextual layers для улучшения content encoding. Чтобы уменьшить inference time, model generates waveforms непосредственно с помощью neural vocoder, что устраняет intermediate mel-spectrogram conversions. Для защиты идентичности, DarkStream инжектирует GAN-generated pseudo-speaker embedding в linguistic features, полученные из content encoder. Этот approach обеспечивает strong anonymization при минимальном ущербе для linguistic intelligibility. ## Результаты Evaluations показывают, что DarkStream достигает strong anonymization, с EER (Equal Error Rate) speaker verification на значение около 50% в lazy-informed attack сценарии, что соответствует near-chance performance. Такое значение EER является критически важным для защиты идентичности. И, при этом, linguistic intelligibility сохраняется на удовлетворительном уровне, с WER (Word Error Rate) в районе 9%. Эти результаты указывают на баланс между low-latency, robust privacy и minimal intelligibility degradation, что делает DarkStream практичным решением для privacy-preserving real-time speech communication. ## Значимость DarkStream может быть применен в различных областях, таких как real-time communication, voice assistants, secure speech processing, и другие. Оно предоставляет несколько преимуществ, таких как: - **High-quality anonymization**, сохраняющая языковую интеллектуальность. - **Efficiency**, посредством removal intermediate mel-spectrogram conversions. - **Low-latency решение**, которое может быть использовано в real-time сценариях. Potential impact включает в себя улучшение privacy в digital communication, защиту частности говорящих, и повышение уровня security в системах voice authentication и других. ## Выводы DarkStream предлагает innovative approach для real-time speech anonymization, который достигает strong anonymization с низкой latency и сохраняет linguistic intelligibility. Это решение может иметь важное применение в различных областях, таких как voice assistants, secure communication, и другие. Будущие исследования будут сконцентрированы на улучшении model robustness, увеличении scalability, и улучшении звукового качества для более широкого применения в digital communication.

Abstract

We propose DarkStream, a streaming speech synthesis model for real-time speaker anonymization. To improve content encoding under strict latency constraints, DarkStream combines a causal waveform encoder, a short lookahead buffer, and transformer-based contextual layers. To further reduce inference time, the model generates waveforms directly via a neural vocoder, thus removing intermediate mel-spectrogram conversions. Finally, DarkStream anonymizes speaker identity by injecting a GAN-generated pseudo-speaker embedding into linguistic features from the content encoder. Evaluations show our model achieves strong anonymization, yielding close to 50% speaker verification EER (near-chance performance) on the lazy-informed attack scenario, while maintaining acceptable linguistic intelligibility (WER within 9%). By balancing low-latency, robust privacy, and minimal intelligibility degradation, DarkStream provides a practical solution for privacy-preserving real-time speech communication.

Ссылки и действия