Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers
2508.02175v2
cs.SD, cs.CL, eess.AS
2025-08-09
Авторы:
Liang Lin, Miao Yu, Kaiwen Luo, Yibo Zhang, Lilan Peng, Dexian Wang, Xuehai Tang, Yuanhe Zhang, Xikang Yang, Zhenhong Zhou, Kun Wang, Yang Liu
Резюме на русском
Научная статья "Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers" адресует вопрос уязвимости Audio Large Language Models (ALLMs) для backdoor-атак, использующих акустические триггеры. Авторы предлагают Hidden in the Noise (HIN), новую фреймворк атаки, который использует подtleвые аккустические особенности, такие как изменения динамики звука и стратегическая инъекция шума. Эти изменения вводят постоянные шаблоны, которые ALLM-акустический кодировщик сталкивается, встраивая триггеры в аудиопоток. Чтобы оценить устойчивость ALLM к таким атакам, разработана бенчмарк AudioSafe, который оценивает девять типов рисков. Эксперименты показали, что атаки, использующие шум и перемены речи, достигают более 90% успеха, что ALLM сильно зависит от акустических особенностей, в частности, малочувствительны к громкости, и что триггеры почти не влияют на потери тренировки, демонстрируя свою стезуюсть. Эти выводы подчеркивают необходимость дальнейшего исследования защиты ALLM от таких угроз.
Abstract
As Audio Large Language Models (ALLMs) emerge as powerful tools for speech
processing, their safety implications demand urgent attention. While
considerable research has explored textual and vision safety, audio's distinct
characteristics present significant challenges. This paper first investigates:
Is ALLM vulnerable to backdoor attacks exploiting acoustic triggers? In
response to this issue, we introduce Hidden in the Noise (HIN), a novel
backdoor attack framework designed to exploit subtle, audio-specific features.
HIN applies acoustic modifications to raw audio waveforms, such as alterations
to temporal dynamics and strategic injection of spectrally tailored noise.
These changes introduce consistent patterns that an ALLM's acoustic feature
encoder captures, embedding robust triggers within the audio stream. To
evaluate ALLM robustness against audio-feature-based triggers, we develop the
AudioSafe benchmark, assessing nine distinct risk types. Extensive experiments
on AudioSafe and three established safety datasets reveal critical
vulnerabilities in existing ALLMs: (I) audio features like environment noise
and speech rate variations achieve over 90% average attack success rate. (II)
ALLMs exhibit significant sensitivity differences across acoustic features,
particularly showing minimal response to volume as a trigger, and (III)
poisoned sample inclusion causes only marginal loss curve fluctuations,
highlighting the attack's stealth.
Ссылки и действия
Дополнительные ресурсы: