Spectral Masking and Interpolation Attack (SMIA): A Black-box Adversarial Attack against Voice Authentication and Anti-Spoofing Systems
2509.07677v1
cs.SD, cs.AI
2025-09-11
Авторы:
Kamel Kamel, Hridoy Sankar Dutta, Keshav Sood, Sunil Aryal
Резюме на русском
## Контекст
Voice Authentication Systems (VAS) используют уникальные звуковые характеристики для проверки подлинности. Они широко используются в высокобезопасных сферах, таких как банковские системы и здравоохранение. Несмотря на улучшения, основанные на глубоком обучении, эти системы остаются уязвимы к развитым угрозам, таким как deepfakes и адверсарные атаки. Развитие реалистичного голосового клонирования усложняет различие между подлинным и синтезированным звуком, что повышает риск безопасности. Дополнительно, существующие меры безопасности, такие как анти-спуфинг-счетчики (CMs), часто основываются на статических моделях, что делает их уязвимыми перед новыми атаками. В этом контексте мы предлагаем Spectral Masking and Interpolation Attack (SMIA), позволяющий эффективно обойти существующие системы.
## Метод
SMIA — это блэк-бокс-атака, которая атакует не только голосовую аутентификацию, но и анти-спуфинг-счетчики. Она использует спектральные манипуляции в неявных частотных зонах AI-генерируемого аудио. Метод заключается в том, чтобы изменить голос в пределах частот, незаметных для человека, чтобы создавать адверсарные примеры, которые звучат аутентично, но подделывают CMs. Мы использовали алгоритмы интерполяции для изменения звука в неявных частотных зонах и измерили влияние на CMs. Данные для экспериментов были получены из реальных голосовых аутентификационных систем и пакетов как сторонних, так и внутренних компонентов анти-спуфинга.
## Результаты
Мы проводили эксперименты с несколькими SOTA-системами, включая VAS и CMs. Наша атака показала высокую успешность: ASR был по крайней мере 82% против комбинированных VAS/CM-систем, 97.5% против специализированных систем голоса и 100% против CMs. Мы протестировали SMIA под различными условиями, включая ситуации с шумом и различными типами голоса. Эти результаты указывают на то, что существующие системы неэффективны против адаптивных атак, таких как SMIA.
## Значимость
Наш алгоритм SMIA может быть применен во многих областях, где требуется высокая безопасность и доверие к голосовым системам, такие как банковский сектор, здравоохранение и автоматизация. Он показывает, что текущие меры безопасности неэффективны против новых видов адверсарных атак. Выявленные уязвимости могут привести к внедрению динамичных, контекст-зависимых систем, которые могут эффективно отвечать на развивающиеся угрозы.
## Выводы
SMIA демонстрирует серьезные уязвимости в текущих VAS и анти-спуфинг-системах. Он показы
Abstract
Voice Authentication Systems (VAS) use unique vocal characteristics for
verification. They are increasingly integrated into high-security sectors such
as banking and healthcare. Despite their improvements using deep learning, they
face severe vulnerabilities from sophisticated threats like deepfakes and
adversarial attacks. The emergence of realistic voice cloning complicates
detection, as systems struggle to distinguish authentic from synthetic audio.
While anti-spoofing countermeasures (CMs) exist to mitigate these risks, many
rely on static detection models that can be bypassed by novel adversarial
methods, leaving a critical security gap. To demonstrate this vulnerability, we
propose the Spectral Masking and Interpolation Attack (SMIA), a novel method
that strategically manipulates inaudible frequency regions of AI-generated
audio. By altering the voice in imperceptible zones to the human ear, SMIA
creates adversarial samples that sound authentic while deceiving CMs. We
conducted a comprehensive evaluation of our attack against state-of-the-art
(SOTA) models across multiple tasks, under simulated real-world conditions.
SMIA achieved a strong attack success rate (ASR) of at least 82% against
combined VAS/CM systems, at least 97.5% against standalone speaker verification
systems, and 100% against countermeasures. These findings conclusively
demonstrate that current security postures are insufficient against adaptive
adversarial attacks. This work highlights the urgent need for a paradigm shift
toward next-generation defenses that employ dynamic, context-aware frameworks
capable of evolving with the threat landscape.
Ссылки и действия
Дополнительные ресурсы: