Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

2509.15437v1 cs.SD, cs.AI, cs.CR, eess.AS, I.2.0; I.2.7; I.5.4; K.6.5 2025-09-23
Авторы:

Daniyal Kabir Dar, Qiben Yan, Li Xiao, Arun Ross

Резюме на русском

## Контекст Авторские звуковые атаки (adversarial audio attacks) представляют собой подрывную угрозу для систем автоматического распознавания речи (ASR) и проверки голоса. Они добавляют незаметные для человека изменения в аудиосигнал, которые значительно влияют на вывод системы. Хотя исследования сосредоточены на атаках на классификацию, работы, изучающие влияние таких атак на понятие голоса (speaker identity), остаются редки. В настоящей работе мы рассматриваем эти атаки с точки зрения фонетических изменений и их влияния на голос. Мы проводим эксперименты с целью изучить, как фонетические раскаивания (phonetic distortions) влияют на голос и на возможность идентификации голоса. ## Метод Мы используем DeepSpeech в качестве целевой ASR-системы для генерации атак. Для генерации атак на голос мы применяем алгоритм FGSM (Fast Gradient Sign Method), который генерирует минимальные изменения в аудиосигнале, направленные на максимизацию ошибки системы. Для анализа фонетических изменений, мы применяем распознавание фонетических слов (phoneme recognition) и изучаем как изменения в фонетическом содержании воздействуют на голос. Наши эксперименты проводятся на данных LibriSpeech, которые содержат фонетически разнообразные фразы. ## Результаты Мы выполняем эксперименты на 16 фонетически различных фразах. Мы обнаруживаем, что атаки DeepSpeech приводят к тому, что голос заменяется на другой, что изменяет голос в позиции целевой фразы. Мы увидели, что целевые фразы становятся нераспознаваемыми, и что это может привести к потере идентичности голоса. Мы также обнаружили, что в результате угрозы фонетические раскаивания приводят к тому, что в системе ASR возникают значительные ошибки распознавания текста. ## Значимость Наши результаты показывают, что атаки звуковых атак могут иметь значительное воздействие на системы распознавания речи и проверки голоса. Мы показываем, что эти атаки могут приводить к ошибкам в текстах, получаемых системой, и к тому, что потеря голоса становится возможной. Эти исследования могут быть использованы для создания более надежных систем проверки голоса, более устойчивых к таким атакам. Наша работа также может быть полезна для создания новых алгоритмов ASR, которые могут детектировать такие атаки. ## Выводы Мы показали, что атаки звуковых сигналов могут приводить к серьёзным изменениям голоса в системе ASR, в том числе к тому, что голос будет заменён интересующим нам сигналом. Эти изменения могут привести к потере голоса и к тому, что система не сможет распознать голос как знакомый. Наши исследования показывают, что в будущем необходимо развить более сильные методы защиты

Abstract

Adversarial perturbations in speech pose a serious threat to automatic speech recognition (ASR) and speaker verification by introducing subtle waveform modifications that remain imperceptible to humans but can significantly alter system outputs. While targeted attacks on end-to-end ASR models have been widely studied, the phonetic basis of these perturbations and their effect on speaker identity remain underexplored. In this work, we analyze adversarial audio at the phonetic level and show that perturbations exploit systematic confusions such as vowel centralization and consonant substitutions. These distortions not only mislead transcription but also degrade phonetic cues critical for speaker verification, leading to identity drift. Using DeepSpeech as our ASR target, we generate targeted adversarial examples and evaluate their impact on speaker embeddings across genuine and impostor samples. Results across 16 phonetically diverse target phrases demonstrate that adversarial audio induces both transcription errors and identity drift, highlighting the need for phonetic-aware defenses to ensure the robustness of ASR and speaker recognition systems.

Ссылки и действия