Multilingual Source Tracing of Speech Deepfakes: A First Benchmark
2508.04143v1
eess.AS, cs.CL, cs.SD
2025-08-09
Авторы:
Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen
Резюме на русском
**Резюме**
В последнее время генерируемые с помощью AI звуковые фильмы (deepfake) стали все более простыми в создании, даже при небольшом объеме входных данных. Это делает возможным создание наукоедержанных фальшивых аудиозаписей, которые могут подвергнуться злоупотреблению. До сих пор большая часть исследований была направлена на обнаружение таких фальшивых звуков, но менее внимание уделено исследованию способа определения модели генерации, которой было сделано это. В настоящей работе представлен первый бенчмарк для многоязычного анализа источника генерации deepfake-звуков. Мы исследовали модели DSP и SSL, подробно рассматривали влияние оптимизации SSL-моделей на язык на кросс-язычную обнаруживаемость. Наши результаты дают подробное видение проблемы определения модели генерации в условиях различного языка тренировочных и реальных процессов. Данные, протокол и код доступны на GitHub.
Abstract
Recent progress in generative AI has made it increasingly easy to create
natural-sounding deepfake speech from just a few seconds of audio. While these
tools support helpful applications, they also raise serious concerns by making
it possible to generate convincing fake speech in many languages. Current
research has largely focused on detecting fake speech, but little attention has
been given to tracing the source models used to generate it. This paper
introduces the first benchmark for multilingual speech deepfake source tracing,
covering both mono- and cross-lingual scenarios. We comparatively investigate
DSP- and SSL-based modeling; examine how SSL representations fine-tuned on
different languages impact cross-lingual generalization performance; and
evaluate generalization to unseen languages and speakers. Our findings offer
the first comprehensive insights into the challenges of identifying speech
generation models when training and inference languages differ. The dataset,
protocol and code are available at
https://github.com/xuanxixi/Multilingual-Source-Tracing.
Ссылки и действия
Дополнительные ресурсы: