AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds

2509.04345v1 cs.SD, cs.AI, cs.LG 2025-09-06
Авторы:

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

Резюме на русском

## Контекст В последние годы широко распространяются системы генерации речи, которые могут создавать реалистичные голоса, часто неотличимые от речи человека. Это создает серьезные проблемы в подтверждении аутентичности воспроизводимого звука. Хотя существует много методов для обнаружения глубокоподдельной аудиоконтента, их эффективность в реальном мире остается нестабильной. Это связано с огромными различиями между данными, использованными в обучении, и реальными аудиоданными, а также с быстрым развитием технологий генерации речи. Текущие данные не достаточно охватывают диапазон реальных сценариев и современных глубокоподдельных моделей. Данный проект вводит **AUDETER** (AUdio DEepfake TEst Range), большую высокоскоростной базу данных для проверки методов обнаружения глубокоподдельной аудиоконтента в сложных реальных условиях. ## Метод **AUDETER** содержит более 4500 часов синтезированной аудио, сгенерированных машинными системами генерации речи и вокальными моделями. Она включает 3 миллиона аудиоклипов, генерируемых 11 моделями генерации речи и 10 моделями вокализации. Это позволяет создать большой диапазон различных звуков, включая синтетические и глубокоподдельные аудио. Данная база данных представляет собой новый шаг в области исследований в области глубокоподдельной аудиоконтента, так как она предоставляет большой диапазон сложных сценариев для обучения и проверки моделей. ## Результаты Расширенные эксперименты проводились с использованием **AUDETER**. Было показано, что текущие методы обнаружения глубокоподдельной аудиоконтента, обученные на существующих данных, сталкиваются с проблемами при обнаружении новых глубокоподдельных аудио и имеют высокую частоту ложноположительных результатов при работе с реальной речью. Однако модели, обученные на **AUDETER**, показали существенное улучшение в обнаружении глубокоподдельного аудио, снизив ошибку на 44,1%–51,6% и достигнув ошибки всего 4,17% при работе с разнообразными кросс-доменными данными из популярного In-the-Wild датасета. ## Значимость **AUDETER** представляет собой потенциально важное решение для развития обнаружения глубокоподдельной аудиоконтента в разных сферах. Это может быть применено в области безопасности, видеоредактирования, модуляции голоса и других приложениях, где важно выявлять истинную природу речи. Данная база данных дает более сильные инструменты для развития генеральных моделей обнаружения глубокоподдельной аудио, что может привести к более точному и надежному пониманию речи в различных отраслях. ## Выводы **AUDETER** является крупнейшей и самой разнообразно

Abstract

Speech generation systems can produce remarkably realistic vocalisations that are often indistinguishable from human speech, posing significant authenticity challenges. Although numerous deepfake detection methods have been developed, their effectiveness in real-world environments remains unrealiable due to the domain shift between training and test samples arising from diverse human speech and fast evolving speech synthesis systems. This is not adequately addressed by current datasets, which lack real-world application challenges with diverse and up-to-date audios in both real and deep-fake categories. To fill this gap, we introduce AUDETER (AUdio DEepfake TEst Range), a large-scale, highly diverse deepfake audio dataset for comprehensive evaluation and robust development of generalised models for deepfake audio detection. It consists of over 4,500 hours of synthetic audio generated by 11 recent TTS models and 10 vocoders with a broad range of TTS/vocoder patterns, totalling 3 million audio clips, making it the largest deepfake audio dataset by scale. Through extensive experiments with AUDETER, we reveal that i) state-of-the-art (SOTA) methods trained on existing datasets struggle to generalise to novel deepfake audio samples and suffer from high false positive rates on unseen human voice, underscoring the need for a comprehensive dataset; and ii) these methods trained on AUDETER achieve highly generalised detection performance and significantly reduce detection error rate by 44.1% to 51.6%, achieving an error rate of only 4.17% on diverse cross-domain samples in the popular In-the-Wild dataset, paving the way for training generalist deepfake audio detectors. AUDETER is available on GitHub.

Ссылки и действия