Mixture of Low-Rank Adapter Experts in Generalizable Audio Deepfake Detection
2509.13878v1
eess.AS, cs.LG, cs.SD
2025-09-19
Авторы:
Janne Laakkonen, Ivan Kukanov, Ville Hautamäki
Резюме на русском
#### Контекст
Глубокая подделка аудио (audio deepfake) представляет собой синтезированные аудиозаписи, которые нацелены на подмену личности или мошенничество. Это актуальная проблема, даже несмотря на развитие методов и защитных систем. Основная трудность заключается в том, что модели, обученные на определенных образцах глубоко подделанных аудио, часто не могут обнаружить новые, неизвестные алгоритмы подделки. Это ограничивает их общий потенциал в реальных условиях.
#### Метод
Мы предлагаем архитектуру **Mixture of Low-Rank Adapter Experts (MoE-LoRA)**, основанную на использовании **LoRA (Low-Rank Adaptations)** для динамического улучшения модели Wav2Vec2. Наша модель включает несколько низкоранжевых адаптеров (LoRA), которые могут быть активированы специальным механизмом маршрутизации. Это позволяет модели динамически адаптироваться к новым моделям глубокой подделки, не переобучаясь на существующих образцах. Этот метод добавляет гибкость и увеличивает уровень общих навыков модели.
#### Результаты
Мы провели эксперименты, сравнив нашу модель с стандартным методом оптимального тонкого тюнинга (fine-tuning). Использовались два типа данных: внутридоменные (схожи с обучающим набором) и выходящие за домен (новые типы подделки). Наши результаты показали, что **MoE-LoRA** снижает равную ошибку ошибок (EER) в сравнении с базовой моделью, особенно в выходных данных. Например, в выходном домене EER уменьшился с 8.55% до 6.08%, указывая на высокую универсальность нашего подхода.
#### Значимость
Метод может применяться в области аудио-анализа, в частности для защиты от глубокой подделки. Он обладает высокой гибкостью и может быть применен для обнаружения неизвестных типов подделки. Это дает преимущество перед традиционными методами, которые часто сталкиваются с проблемой узкой специализации. Наш подход может помочь в развитии новых защитных систем, увеличивая общую эффективность систем безопасности.
#### Выводы
Наша работа устанавливает новый подход к обнаружению глубоко подделанных аудиозаписей, обеспечивая значительное улучшение универсальности и точности. Это подтверждает эффективность **MoE-LoRA** в обнаружении новых типов мошенничества. Будущие исследования будут направлены на улучшение механизмов маршрутизации, а также на расширение применений нашей модели в других задачах звукового анализа.
Abstract
Foundation models such as Wav2Vec2 excel at representation learning in speech
tasks, including audio deepfake detection. However, after being fine-tuned on a
fixed set of bonafide and spoofed audio clips, they often fail to generalize to
novel deepfake methods not represented in training. To address this, we propose
a mixture-of-LoRA-experts approach that integrates multiple low-rank adapters
(LoRA) into the model's attention layers. A routing mechanism selectively
activates specialized experts, enhancing adaptability to evolving deepfake
attacks. Experimental results show that our method outperforms standard
fine-tuning in both in-domain and out-of-domain scenarios, reducing equal error
rates relative to baseline models. Notably, our best MoE-LoRA model lowers the
average out-of-domain EER from 8.55\% to 6.08\%, demonstrating its
effectiveness in achieving generalizable audio deepfake detection.
Ссылки и действия
Дополнительные ресурсы: