Discrete optimal transport is a strong audio adversarial attack
2509.14959v1
eess.AS, cs.AI
2025-09-20
Авторы:
Anton Selitskiy, Akib Shahriyar, Jishnuraj Prakasan
Резюме на русском
## Контекст
Область аудио-адверсарских атак на защитные механизмы звукового спуфинга привлекает внимание в связи с повышением риска атак на системы аутентификации. Несмотря на успех текущих методов, остается трудность в создании эффективных всё-против-всего (black-box) атак, которые могут использоваться для проверки устойчивости систем к реальным угрозам. Многие атаки ограничены в использовании, например, требуют доступа к модели или имеют неэффективность в переносимости между данными. Целью данной работы является раскрытие потенциала дискретного оптимального транспорта (DOT) в качестве мощного инструмента атаки, который не требует доступа к модели и обладает высокой переносимостью.
## Метод
Работа основывается на идее адаптации дискретного оптимального транспорта (DOT) для выравнивания распределений аудио-фреймов. Метод работает в трех этапах:
1. **Извлечение Embeddings:** Frame-level WavLM embeddings генерируемой аудио-секвенции извлекаются с помощью модели WavLM.
2. **Aligning Distributions:** Embeddings подвергаются оптимальному транспорту с использованием entropic OT, чтобы изменить распределение на большой unpaired bona fide pool.
3. **Decoding:** Результаты обрабатываются через neural vocoder для создания звукового сигнала.
Эта архитектура позволяет создавать аудио-секвенции, которые звучат аутентично, одновременно соответствуя распределению звуков бона-фиде. Атака остается ориентированной на black-box подход и не требует внутренних данных или моделей.
## Результаты
Наборы данных ASVspoof2019 и ASVspoof5 были использованы для оценки DOT в сравнении с AASIST baseline. Атака DOT показала высокую стабильность и высокую equal error rate (EER) на всемирных данных. Важным открытием было то, что DOT остается эффективным даже после fine-tuning защитных механизмов, что демонстрирует его передовое значение в сравнении с другими атаками. Анализ ablation показал, что переносимость и эффективность атаки очень зависят от корректного выбора neural vocoder, но в целом DOT показывает высокую гибкость.
## Значимость
Область применения DOT распространяется на аудио-системы безопасности, включая защиту от спуфинга, аутентификации, а также проверку целостности звуковых данных. Этот подход демонстрирует свой преимущество в том, что он может эффективно атаковать не только локальные модели, но и глобально развернутые системы без доступа к их внутренним данным. Также, DOT показывает потенциал в создании новых методов тестирования аудио-систем, улучшая их обнаруживаемость в реальных угрозах.
## Выводы
Результаты показывают, что DOT создает новый, эффективный взгляд на аудио-адверсарские атаки, использ
Abstract
In this paper, we show that discrete optimal transport (DOT) is an effective
black-box adversarial attack against modern audio anti-spoofing countermeasures
(CMs). Our attack operates as a post-processing, distribution-alignment step:
frame-level WavLM embeddings of generated speech are aligned to an unpaired
bona fide pool via entropic OT and a top-$k$ barycentric projection, then
decoded with a neural vocoder. Evaluated on ASVspoof2019 and ASVspoof5 with
AASIST baselines, DOT yields consistently high equal error rate (EER) across
datasets and remains competitive after CM fine-tuning, outperforming several
conventional attacks in cross-dataset transfer. Ablation analysis highlights
the practical impact of vocoder overlap. Results indicate that
distribution-level alignment is a powerful and stable attack surface for
deployed CMs.
Ссылки и действия
Дополнительные ресурсы: