Multi-Target Backdoor Attacks Against Speaker Recognition

2508.08559v2 cs.SD, cs.LG 2025-08-14
Авторы:

Alexandrine Fortier, Sonal Joshi, Thomas Thebaud, Jesus Villalba Lopez, Najim Dehak, Patrick Cardinal

Резюме на русском

## Контекст Существующая проблема в области сигнальных технологий заключается в уязвимости речи и аудиозаписей к злоупотреблению, которое может привести к нежелательным последствиям, таким как фальсификация идентификации. Одним из главных векторов таких атак является использование вредоносных звуковых сигналов, так называемых "бэкдорных атак". Чтобы компенсировать эти угрозы, необходимо развитие более надежных методов обнаружения таких атак. В данной работе авторы сосредотачиваются на разработке методологии, направленной на обнаружение бэкдорных атак против системы распознавания речи, которая представляет собой ключевую задачу в области безопасности и аудиопроцессинга. ## Метод Разработанная методология основывается на использовании позиционно-независимых звуковых сигналов (триггеров) в виде "подергиваний", которые интегрируются в звуковые сигналы. Данный подход позволяет создавать бэкдорные модели, которые могут быть активированы даже при минимальных изменениях в шуме или других внешних факторах. Архитектура построена таким образом, чтобы позволить злоумышленнику применять один и тот же триггер для множества целевых систем, чтобы вызвать подмену идентификации на определенных целевых голосах. Основные факторы, которые влияют на эффективность атаки, включают сигнал-шум, степень похожести подаваемых звуков, а также конфигурацию триггеров. ## Результаты Для оценки эффективности метода были проведены эксперименты с разными уровнями шума и различными звуковыми триггерами. Результаты показали, что метод достигает высокой эффективности при условии, что голос, который требуется подменить, хорошо совпадает с аудио-профилем, использованным для обучения модели. Особенно высокая поправка получена при работе с входными сигналами, имеющими высокий уровень сходства с триггером. Заметно, что в некоторых случаях удавалось достичь до 95.04% успеха в подмене идентификации, что демонстрирует сильную эффективность этого подхода в ситуациях, когда триггер может быть достаточно оптимально подстроен к задаче. ## Значимость Развитие таких методик имеет значительное значение в нескольких областях, включая безопасность цифровых систем, аудио-процессинг, идентификацию речи, а также применение в голосовых помощниках и системах безопасности. Одним из ключевых преимуществ является возможность обнаружения вредоносных атак на распознавание речи, что может существенно повысить уровень защиты данных и устранить потенциальные риски. Эта работа также открывает пути для дальнейшего

Abstract

In this work, we propose a multi-target backdoor attack against speaker identification using position-independent clicking sounds as triggers. Unlike previous single-target approaches, our method targets up to 50 speakers simultaneously, achieving success rates of up to 95.04%. To simulate more realistic attack conditions, we vary the signal-to-noise ratio between speech and trigger, demonstrating a trade-off between stealth and effectiveness. We further extend the attack to the speaker verification task by selecting the most similar training speaker - based on cosine similarity - as a proxy target. The attack is most effective when target and enrolled speaker pairs are highly similar, reaching success rates of up to 90% in such cases.

Ссылки и действия