Speech DF Arena: A Leaderboard for Speech DeepFake Detection Models

2509.02859v1 cs.SD, cs.CL, eess.AS 2025-09-05
Авторы:

Sandipana Dowerah, Atharva Kulkarni, Ajinkya Kulkarni, Hoan My Tran, Joonas Kalda, Artem Fedorchenko, Benoit Fauve, Damien Lolive, Tanel Alumäe, Matthew Magimai Doss

Резюме на русском

#### Контекст Глубокая фальсификация аудио (DeepFake) — это сложный метод, который используется для создания поддельных аудиозаписей, часто для мошеннических целей. Это является важной проблемой в области компьютерного зрения и естественного общения. Существуют многочисленные методы, которые пытаются распознавать такие поддельные аудиозаписи, но существует отсутствие стандартизированных бенчмарков для эффективного сравнения различных моделей. Speech DeepFake (DF) Arena предлагается как решение для этой проблемы, объединяя различные бенчмарки и метрики для сравнения различных систем распознавания. Его цель — обеспечить транспарентную, повторяемую и стандартизированную оценку моделей DeepFake-распознавания. #### Метод Speech DF Arena представляет собой систему, которая позволяет сравнивать различные системы распознавания DeepFake. Она включает 14 различных бенчмарков и сценарии атак, а также 12 открытых и 3 проприетарных моделей распознавания. Методология включает стандартизированные протоколы оценки, чтобы обеспечить реплицируемость результатов и обеспечить сравнение моделей на разных данных и условиях. Также включена возможность сравнения моделей на лидерборде, что позволяет сравнить различные модели и определить самые эффективные. #### Результаты В рамках Speech DF Arena проведены широкомасштабные эксперименты с различными моделями и наборами данных. Оценены различные метрики, включая метрику EER (Equal Error Rate). Было обнаружено, что некоторые модели показывают высокую эффективность в определенных ситуациях, но их производительность значительно падает в кросс-доменных сценариях. Это подчеркивает необходимость в развитии кросс-доменных подходов для повышения надежности и устойчивости моделей. #### Значимость Speech DF Arena может быть применена в различных областях, включая безопасность, медицину, сервисы анализа голоса и др. Она обеспечивает мощный инструмент для развития моделей распознавания DeepFake, позволяя улучшить их надежность и кросс-доменную эффективность. В будущем, Speech DF Arena может быть расширена для включения более разнообразных сценариев и типов атак, чтобы непрерывно повышать качество распознавания. #### Выводы Speech DF Arena представляет собой первый стандартизированный бенчмарк для DeepFake-распознавания, который обеспечивает транспарентную и повторяемую оценку моделей. Он позволяет сравнить различные модели и выявить сильные и слабые стороны каждой из них. На основе открытых результатов моделей можно развивать новые подходы, которые повысят надежность и стойкость моделей против различных атак. В будущем, Speech DF Arena будет расширяться для включения более широкого спектра сценариев и типов атак.

Abstract

Parallel to the development of advanced deepfake audio generation, audio deepfake detection has also seen significant progress. However, a standardized and comprehensive benchmark is still missing. To address this, we introduce Speech DeepFake (DF) Arena, the first comprehensive benchmark for audio deepfake detection. Speech DF Arena provides a toolkit to uniformly evaluate detection systems, currently across 14 diverse datasets and attack scenarios, standardized evaluation metrics and protocols for reproducibility and transparency. It also includes a leaderboard to compare and rank the systems to help researchers and developers enhance their reliability and robustness. We include 14 evaluation sets, 12 state-of-the-art open-source and 3 proprietary detection systems. Our study presents many systems exhibiting high EER in out-of-domain scenarios, highlighting the need for extensive cross-domain evaluation. The leaderboard is hosted on Huggingface1 and a toolkit for reproducing results across the listed datasets is available on GitHub.

Ссылки и действия