AUDDT: Audio Unified Deepfake Detection Benchmark Toolkit

2509.21597v1 eess.AS, cs.CL, cs.SD 2025-09-30

Авторы:

Yi Zhu, Heitor R. Guimarães, Arthur Pimentel, Tiago Falk

Резюме на русском

## Контекст С появлением технологий искусственного интеллекта (AI) в последние годы, включая глубокое обучение, возникло много AI-генерируемого контента, такого как звуковые deepfakes. Эти звуковые deepfakes могут способствовать мошенничеству, предубеждениям и дезинформации, что делает их детекцию крайне важной. Однако существующие модели детекции звуковых deepfakes часто оцениваются на малых наборах данных, что ограничивает их обобщение на реальные условия. Это создает необходимость в разработке широкой базы данных и методов оценки моделей детекции. Мы предлагаем AUDDT — Audio Unified Deepfake Detection Benchmark Toolkit, который автоматизирует оценку предварительно обученных моделей детекции в 28 различных датасетах, чтобы дать пользователям четкий взгляд на преимущества и недостатки их моделей. ## Метод AUDDT — это открытое исходное программное обеспечение, которое автоматизирует оценку моделей детекции звуковых deepfakes на 28 различных датасетах. Этот тест-кейс позволяет пользователям проверить предварительно обученные модели на различных условиях и типах мошенничества. Мы создали широкий набор звуковых датасетов, включающий 28 различных групп, таких как различные типы мошенничества, глубина модификации, качество звука и др. Наша методология включает выбор метрик оценки и разработку автоматизированного процесса для сравнения моделей на этих датасетах. Это позволяет пользователям оценить модели во время работы, сравнить результаты и получить подробный анализ производительности модели. ## Результаты Мы проводили ряд экспериментов с помощью широко используемой предварительно обученной модели детекции звуковых deepfakes. Мы протестировали модель на внутренних и внешних наборах данных, чтобы продемонстрировать различия в производительности в зависимости от типа мошенничества и уровня модификации. Результаты показали, что модель показывает высокую точность в определении глубоко модифицированных аудио, но имеет некоторые недостатки в определении менее заметных мошенничеств. Мы также проанализировали различные типы звуковых датасетов, показав, что качество данных и размер датасета могут существенно влиять на результаты. ## Значимость AUDDT может быть использован в различных областях, включая безопасность информации, медиа-анализ и научное исследование. Он позволяет выявить слабые места в моделях детекции, чтобы улучшить их. Наша система предоставляет разработчикам инструмент для определения наиболее уязвимых типов мошенничества и для работы над их преодолением. Это может стать ключевым инструментом для создания надежных моделей, которые могут быть применены в реальных

Abstract

With the prevalence of artificial intelligence (AI)-generated content, such as audio deepfakes, a large body of recent work has focused on developing deepfake detection techniques. However, most models are evaluated on a narrow set of datasets, leaving their generalization to real-world conditions uncertain. In this paper, we systematically review 28 existing audio deepfake datasets and present an open-source benchmarking toolkit called AUDDT (https://github.com/MuSAELab/AUDDT). The goal of this toolkit is to automate the evaluation of pretrained detectors across these 28 datasets, giving users direct feedback on the advantages and shortcomings of their deepfake detectors. We start by showcasing the usage of the developed toolkit, the composition of our benchmark, and the breakdown of different deepfake subgroups. Next, using a widely adopted pretrained deepfake detector, we present in- and out-of-domain detection results, revealing notable differences across conditions and audio manipulation types. Lastly, we also analyze the limitations of these existing datasets and their gap relative to practical deployment scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AUDDT: Audio Unified Deepfake Detection Benchmark Toolkit

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech E...

Pruning as Regularization: Sensitivity-Aware One-Shot Pruning in ASR

Quantizing Whisper-small: How design choices affect ASR performance

LibriConvo: Simulating Conversations from Read Literature for ASR and Diarizatio...

Навигация