Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?

2509.21087v1 eess.AS, cs.LG, cs.SD 2025-09-27
Авторы:

Rostislav Makarov, Lea Schönherr, Timo Gerkmann

Резюме на русском

## Контекст Современные методы машинного обучения, применяемые в области улучшения речи (speech enhancement), достигли высокого уровня выразительности, позволяя значительно модифицировать входные сигналы. Однако эта выразительность также сопряжена с опасностью: в современных моделях могут проникнуть атаки с использованием адверсарных шумов, которые могут изменить семантический смысл улучшенной речи. Такой риск становится крайне актуален в сферах применения, где речь является ключевым способом передачи информации, например, в системах управления, диалоговых системах и автоматизированных системах обработки запросов. Описанная проблема побудила исследователей оценить уязвимость современных моделей к подобным атакам и разработать меры по их противостолбцу. ## Метод Исследователи применили методы адверсарного обучения (adversarial training) для создания имитационных звуковых сигналов, которые могут проникнуть в модели улучшения речи. Шум был специально сконструирован так, чтобы быть искусственным, но при этом незаметным на уровне психоакустического ощущения. Работа также включала в себя анализ различных архитектур моделей улучшения речи, в том числе использование моделей с разными уровнями сложности и обучения. Также было проведено исследование уязвимости различных типов моделей улучшения речи, включая автокодировщики и сверточные модели. ## Результаты Полученные результаты показали, что многие современные модели подвержены угрозам адверсарных атак. Были получены примеры звуковых сигналов, в которых инъекция адверсарного шума приводила к изменению семантического смысла. Данные эксперименты провели на учебных наборах данных, таких как LibriSpeech и DEMAND. Итоговое подтверждение утверждения о возможности атак на модели улучшения речи было получено с помощью высокой точности взаимодействия моделей с адверсарными шумавыми сигналами. ## Значимость Результаты исследований указывают на важность улучшения безопасности моделей улучшения речи. Области применения включают в себя системы управления, автомобильные системы, диалоговые системы, а также системы перевода. Преимуществом данного исследования является получение новых сведений о слабых местах современных моделей и разработка альтернативных моделей, например, diffusion models, которые, благодаря своей структуре, естественно оказываются более устойчивыми к таким атакам. Потенциальное влияние заключается в усилении безопасности и надежности голосовых систем в критически важных сферах применения. ## Выводы Основные достижения исследования заключаются в том, что адверсарные шумы могут быть эффективно использованы для измен

Abstract

Machine learning approaches for speech enhancement are becoming increasingly expressive, enabling ever more powerful modifications of input signals. In this paper, we demonstrate that this expressiveness introduces a vulnerability: advanced speech enhancement models can be susceptible to adversarial attacks. Specifically, we show that adversarial noise, carefully crafted and psychoacoustically masked by the original input, can be injected such that the enhanced speech output conveys an entirely different semantic meaning. We experimentally verify that contemporary predictive speech enhancement models can indeed be manipulated in this way. Furthermore, we highlight that diffusion models with stochastic samplers exhibit inherent robustness to such adversarial attacks by design.

Ссылки и действия