Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

2508.10559v1 cs.SD, cs.AI 2025-08-16

Авторы:

Yuankun Xie, Ruibo Fu, Xiaopeng Wang, Zhiyong Wang, Ya Li, Zhengqi Wen, Haonnan Cheng, Long Ye

Резюме на русском

## Контекст В последние годы технологии генерации звуков, включая глубокую подмену речи (deepfake speech), получили широкое распространение, особенно на сетях социальных медиа. Эти технологии используются для создания иллюзии речи, которая может использоваться в подделке, мошенничестве или дестабилизации. Хотя существуют методы поддельной речи (countermeasures, CMs), которые демонстрируют успех на открытых наборах данных, их эффективность значительно снижается при переносе на реальные сценарии, особенно в контексте социальных сетей. Это мотивирует развитие методов, которые могут быть эффективны для распознавания подмены речи в реальной среде. ## Метод Мы предлагаем Fake Speech Wild (FSW), новый набор данных, содержащий 254 часов реальной и подменной речи, собранных из четырех медийных платформ: YouTube, TikTok, Facebook и Reddit. Набор FSW фокусируется на звуковых материалах из социальных сетей, чтобы повысить реалистичность. Для оценки существующих CMs мы используем общую метрику EER (Equal Error Rate), чтобы провести бенчмарк на новом датасете, а также на других известных датасетах. Мы проводим эксперименты с аугментацией данных, включая методы SSL (self-supervised learning), чтобы улучшить чувствительность CMs к разным стилям речи и сценариям. ## Результаты Наши эксперименты показали, что CMs, основанные на SSL, улучшают ретроспективные результаты на FSW до 3.54% EER, что значительно превышает результаты, достигнутые на других датасетах. Мы также доказали, что аугментация данных в FSW и использование методов SSL могут значительно улучшить точность распознавания, особенно в условиях реальной среды. Наши данные показывают, что наше решение эффективно в задаче поддельной речи в социальных сетях, где другие методы часто терпят неудачу. ## Значимость Решение, предложенное в данной работе, может использоваться в различных областях, включая мониторинг содержимого в социальных сетях, защиту от мошенничества и безопасность в сетях. Это особенно важно в связи с ростом глубоких подменов речи, которые могут использоваться для распространения ложных сообщений. Мы показали, что наш метод не только улучшает точность, но и расширяет возможности для распознавания речи в новых, нестандартных сценариях. ## Выводы Мы предлагаем новый датасет FSW, который является реалистичным и полезным для развития методов распознавания подмены речи. Наши эксперименты показали, что CMs, основанные на SSL, дают существенный прирост в эффективности. Мы считаем, что этот подход может стать новой стандартной практикой для распознавания подмены речи в сетях социальных медиа. В будущем, мы планируем расширить дата

Abstract

The rapid advancement of speech generation technology has led to the widespread proliferation of deepfake speech across social media platforms. While deepfake audio countermeasures (CMs) achieve promising results on public datasets, their performance degrades significantly in cross-domain scenarios. To advance CMs for real-world deepfake detection, we first propose the Fake Speech Wild (FSW) dataset, which includes 254 hours of real and deepfake audio from four different media platforms, focusing on social media. As CMs, we establish a benchmark using public datasets and advanced selfsupervised learning (SSL)-based CMs to evaluate current CMs in real-world scenarios. We also assess the effectiveness of data augmentation strategies in enhancing CM robustness for detecting deepfake speech on social media. Finally, by augmenting public datasets and incorporating the FSW training set, we significantly advanced real-world deepfake audio detection performance, achieving an average equal error rate (EER) of 3.54% across all evaluation sets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация