Discrete optimal transport is a strong audio adversarial attack

2509.14959v1 eess.AS, cs.AI 2025-09-20

Авторы:

Anton Selitskiy, Akib Shahriyar, Jishnuraj Prakasan

Резюме на русском

## Контекст Область аудио-адверсарских атак на защитные механизмы звукового спуфинга привлекает внимание в связи с повышением риска атак на системы аутентификации. Несмотря на успех текущих методов, остается трудность в создании эффективных всё-против-всего (black-box) атак, которые могут использоваться для проверки устойчивости систем к реальным угрозам. Многие атаки ограничены в использовании, например, требуют доступа к модели или имеют неэффективность в переносимости между данными. Целью данной работы является раскрытие потенциала дискретного оптимального транспорта (DOT) в качестве мощного инструмента атаки, который не требует доступа к модели и обладает высокой переносимостью. ## Метод Работа основывается на идее адаптации дискретного оптимального транспорта (DOT) для выравнивания распределений аудио-фреймов. Метод работает в трех этапах: 1. **Извлечение Embeddings:** Frame-level WavLM embeddings генерируемой аудио-секвенции извлекаются с помощью модели WavLM. 2. **Aligning Distributions:** Embeddings подвергаются оптимальному транспорту с использованием entropic OT, чтобы изменить распределение на большой unpaired bona fide pool. 3. **Decoding:** Результаты обрабатываются через neural vocoder для создания звукового сигнала. Эта архитектура позволяет создавать аудио-секвенции, которые звучат аутентично, одновременно соответствуя распределению звуков бона-фиде. Атака остается ориентированной на black-box подход и не требует внутренних данных или моделей. ## Результаты Наборы данных ASVspoof2019 и ASVspoof5 были использованы для оценки DOT в сравнении с AASIST baseline. Атака DOT показала высокую стабильность и высокую equal error rate (EER) на всемирных данных. Важным открытием было то, что DOT остается эффективным даже после fine-tuning защитных механизмов, что демонстрирует его передовое значение в сравнении с другими атаками. Анализ ablation показал, что переносимость и эффективность атаки очень зависят от корректного выбора neural vocoder, но в целом DOT показывает высокую гибкость. ## Значимость Область применения DOT распространяется на аудио-системы безопасности, включая защиту от спуфинга, аутентификации, а также проверку целостности звуковых данных. Этот подход демонстрирует свой преимущество в том, что он может эффективно атаковать не только локальные модели, но и глобально развернутые системы без доступа к их внутренним данным. Также, DOT показывает потенциал в создании новых методов тестирования аудио-систем, улучшая их обнаруживаемость в реальных угрозах. ## Выводы Результаты показывают, что DOT создает новый, эффективный взгляд на аудио-адверсарские атаки, использ

Abstract

In this paper, we show that discrete optimal transport (DOT) is an effective black-box adversarial attack against modern audio anti-spoofing countermeasures (CMs). Our attack operates as a post-processing, distribution-alignment step: frame-level WavLM embeddings of generated speech are aligned to an unpaired bona fide pool via entropic OT and a top-$k$ barycentric projection, then decoded with a neural vocoder. Evaluated on ASVspoof2019 and ASVspoof5 with AASIST baselines, DOT yields consistently high equal error rate (EER) across datasets and remains competitive after CM fine-tuning, outperforming several conventional attacks in cross-dataset transfer. Ablation analysis highlights the practical impact of vocoder overlap. Results indicate that distribution-level alignment is a powerful and stable attack surface for deployed CMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Discrete optimal transport is a strong audio adversarial attack

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Revisiting Audio-language Pretraining for Learning General-purpose Audio Represe...

Open Source State-Of-the-Art Solution for Romanian Speech Recognition

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical ...

On Deepfake Voice Detection -- It's All in the Presentation

Навигация