Multilingual Source Tracing of Speech Deepfakes: A First Benchmark

2508.04143v1 eess.AS, cs.CL, cs.SD 2025-08-09

Авторы:

Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen

Резюме на русском

**Резюме** В последнее время генерируемые с помощью AI звуковые фильмы (deepfake) стали все более простыми в создании, даже при небольшом объеме входных данных. Это делает возможным создание наукоедержанных фальшивых аудиозаписей, которые могут подвергнуться злоупотреблению. До сих пор большая часть исследований была направлена на обнаружение таких фальшивых звуков, но менее внимание уделено исследованию способа определения модели генерации, которой было сделано это. В настоящей работе представлен первый бенчмарк для многоязычного анализа источника генерации deepfake-звуков. Мы исследовали модели DSP и SSL, подробно рассматривали влияние оптимизации SSL-моделей на язык на кросс-язычную обнаруживаемость. Наши результаты дают подробное видение проблемы определения модели генерации в условиях различного языка тренировочных и реальных процессов. Данные, протокол и код доступны на GitHub.

Abstract

Recent progress in generative AI has made it increasingly easy to create natural-sounding deepfake speech from just a few seconds of audio. While these tools support helpful applications, they also raise serious concerns by making it possible to generate convincing fake speech in many languages. Current research has largely focused on detecting fake speech, but little attention has been given to tracing the source models used to generate it. This paper introduces the first benchmark for multilingual speech deepfake source tracing, covering both mono- and cross-lingual scenarios. We comparatively investigate DSP- and SSL-based modeling; examine how SSL representations fine-tuned on different languages impact cross-lingual generalization performance; and evaluate generalization to unseen languages and speakers. Our findings offer the first comprehensive insights into the challenges of identifying speech generation models when training and inference languages differ. The dataset, protocol and code are available at https://github.com/xuanxixi/Multilingual-Source-Tracing.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multilingual Source Tracing of Speech Deepfakes: A First Benchmark

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech E...

Pruning as Regularization: Sensitivity-Aware One-Shot Pruning in ASR

Quantizing Whisper-small: How design choices affect ASR performance

LibriConvo: Simulating Conversations from Read Literature for ASR and Diarizatio...

Навигация