AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds
2509.04345v1
cs.SD, cs.AI, cs.LG
2025-09-06
Авторы:
Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie
Резюме на русском
## Контекст
В последние годы широко распространяются системы генерации речи, которые могут создавать реалистичные голоса, часто неотличимые от речи человека. Это создает серьезные проблемы в подтверждении аутентичности воспроизводимого звука. Хотя существует много методов для обнаружения глубокоподдельной аудиоконтента, их эффективность в реальном мире остается нестабильной. Это связано с огромными различиями между данными, использованными в обучении, и реальными аудиоданными, а также с быстрым развитием технологий генерации речи. Текущие данные не достаточно охватывают диапазон реальных сценариев и современных глубокоподдельных моделей. Данный проект вводит **AUDETER** (AUdio DEepfake TEst Range), большую высокоскоростной базу данных для проверки методов обнаружения глубокоподдельной аудиоконтента в сложных реальных условиях.
## Метод
**AUDETER** содержит более 4500 часов синтезированной аудио, сгенерированных машинными системами генерации речи и вокальными моделями. Она включает 3 миллиона аудиоклипов, генерируемых 11 моделями генерации речи и 10 моделями вокализации. Это позволяет создать большой диапазон различных звуков, включая синтетические и глубокоподдельные аудио. Данная база данных представляет собой новый шаг в области исследований в области глубокоподдельной аудиоконтента, так как она предоставляет большой диапазон сложных сценариев для обучения и проверки моделей.
## Результаты
Расширенные эксперименты проводились с использованием **AUDETER**. Было показано, что текущие методы обнаружения глубокоподдельной аудиоконтента, обученные на существующих данных, сталкиваются с проблемами при обнаружении новых глубокоподдельных аудио и имеют высокую частоту ложноположительных результатов при работе с реальной речью. Однако модели, обученные на **AUDETER**, показали существенное улучшение в обнаружении глубокоподдельного аудио, снизив ошибку на 44,1%–51,6% и достигнув ошибки всего 4,17% при работе с разнообразными кросс-доменными данными из популярного In-the-Wild датасета.
## Значимость
**AUDETER** представляет собой потенциально важное решение для развития обнаружения глубокоподдельной аудиоконтента в разных сферах. Это может быть применено в области безопасности, видеоредактирования, модуляции голоса и других приложениях, где важно выявлять истинную природу речи. Данная база данных дает более сильные инструменты для развития генеральных моделей обнаружения глубокоподдельной аудио, что может привести к более точному и надежному пониманию речи в различных отраслях.
## Выводы
**AUDETER** является крупнейшей и самой разнообразно
Abstract
Speech generation systems can produce remarkably realistic vocalisations that
are often indistinguishable from human speech, posing significant authenticity
challenges. Although numerous deepfake detection methods have been developed,
their effectiveness in real-world environments remains unrealiable due to the
domain shift between training and test samples arising from diverse human
speech and fast evolving speech synthesis systems. This is not adequately
addressed by current datasets, which lack real-world application challenges
with diverse and up-to-date audios in both real and deep-fake categories. To
fill this gap, we introduce AUDETER (AUdio DEepfake TEst Range), a large-scale,
highly diverse deepfake audio dataset for comprehensive evaluation and robust
development of generalised models for deepfake audio detection. It consists of
over 4,500 hours of synthetic audio generated by 11 recent TTS models and 10
vocoders with a broad range of TTS/vocoder patterns, totalling 3 million audio
clips, making it the largest deepfake audio dataset by scale. Through extensive
experiments with AUDETER, we reveal that i) state-of-the-art (SOTA) methods
trained on existing datasets struggle to generalise to novel deepfake audio
samples and suffer from high false positive rates on unseen human voice,
underscoring the need for a comprehensive dataset; and ii) these methods
trained on AUDETER achieve highly generalised detection performance and
significantly reduce detection error rate by 44.1% to 51.6%, achieving an error
rate of only 4.17% on diverse cross-domain samples in the popular In-the-Wild
dataset, paving the way for training generalist deepfake audio detectors.
AUDETER is available on GitHub.
Ссылки и действия
Дополнительные ресурсы: