Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems

2509.09204v1 cs.SD, cs.AI, cs.CL 2025-09-13

Авторы:

Chin Yuen Kwok, Jia Qi Yip, Zhen Qiu, Chi Hung Chi, Kwok Yan Lam

Резюме на русском

## Контекст Современное развитие технологий глубокого обучения позволило создавать аудио-глубокие подделки (audio deepfakes, ADD), которые могут синтезировать речь, приближающуюся к речи человека. Эти технологии могут применяться в полезных целях, таких как аудио-синтезаторы или лингвистические исследования, но также имеют потенциал для злоупотребления, в том числе в области мошенничества и угроз безопасности. Однако существуют серьезные проблемы в оценке качества систем обнаружения таких подделок. Оценка ADD-систем часто основывается на относительном количестве ошибок (EER), который может быть влиянтен в зависимости от размера и разнообразия данных. Более того, большинство данных, используемых для тестирования, являются ограниченными в своем разнообразии, в том числе в пространстве речи бона фиде (bona fide speech). Это ограничивает общую надежность и применимость этих систем в реальной жизни. ## Метод Чтобы улучшить надежность и равенство оценки ADD-систем, мы предлагаем новую методологию, называемую **bona fide cross-testing**. Она включает в себя проверку систем на четырнадцати часах данных, содержащих различные виды речи бона фиде (например, речь в разных стилях и условиях). Мы проводим тщательный анализ поведения систем при разных условиях и измеряем различные метрики, включая EER. Эта методика позволяет учесть различия в качестве данных и дает более сбалансированный взгляд на производительность систем. Кроме того, мы создали новую базу данных, доступную для использования в будущих исследованиях. ## Результаты Мы проверили нашу методологию на более чем 150 моделей ADD, оценив их поведение на различных типах речи бона фиде. Наши результаты показали, что применение bona fide cross-testing дает более равномерную и надежную оценку, чем традиционные методы. В частности, она уменьшает влияние большого количества данных от определенных типов речи на оценку общей производительности. Эта процедура также повышает чувствительность к проблемам, связанным с разными условиями речи, что делает ADD-системы более надежными для реальных задач. ## Значимость Наше исследование имеет значительное значение для развития добросовестных систем обнаружения глубоких подделок аудио. Оно может быть применено в области безопасности информации, мониторинга носителя речи и других полей, где важно различать реальную речь от глубоких подделок. Мы также выделили, что наш подход может повысить равенство и разнообразие в оценке систем, что вносит вклад в улучшение общей надежности и достоверности подобных технологий. ## Выводы В результате наших исследований была предложена новая архитектура оценки ADD

Abstract

Audio deepfake detection (ADD) models are commonly evaluated using datasets that combine multiple synthesizers, with performance reported as a single Equal Error Rate (EER). However, this approach disproportionately weights synthesizers with more samples, underrepresenting others and reducing the overall reliability of EER. Additionally, most ADD datasets lack diversity in bona fide speech, often featuring a single environment and speech style (e.g., clean read speech), limiting their ability to simulate real-world conditions. To address these challenges, we propose bona fide cross-testing, a novel evaluation framework that incorporates diverse bona fide datasets and aggregates EERs for more balanced assessments. Our approach improves robustness and interpretability compared to traditional evaluation methods. We benchmark over 150 synthesizers across nine bona fide speech types and release a new dataset to facilitate further research at https://github.com/cyaaronk/audio_deepfake_eval.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Story2MIDI: Emotionally Aligned Music Generation from Text

Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learni...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Finding My Voice: Generative Reconstruction of Disordered Speech for Automated C...

Spatial Audio Motion Understanding and Reasoning

Навигация