Speech DF Arena: A Leaderboard for Speech DeepFake Detection Models
2509.02859v1
cs.SD, cs.CL, eess.AS
2025-09-05
Авторы:
Sandipana Dowerah, Atharva Kulkarni, Ajinkya Kulkarni, Hoan My Tran, Joonas Kalda, Artem Fedorchenko, Benoit Fauve, Damien Lolive, Tanel Alumäe, Matthew Magimai Doss
Резюме на русском
#### Контекст
Глубокая фальсификация аудио (DeepFake) — это сложный метод, который используется для создания поддельных аудиозаписей, часто для мошеннических целей. Это является важной проблемой в области компьютерного зрения и естественного общения. Существуют многочисленные методы, которые пытаются распознавать такие поддельные аудиозаписи, но существует отсутствие стандартизированных бенчмарков для эффективного сравнения различных моделей. Speech DeepFake (DF) Arena предлагается как решение для этой проблемы, объединяя различные бенчмарки и метрики для сравнения различных систем распознавания. Его цель — обеспечить транспарентную, повторяемую и стандартизированную оценку моделей DeepFake-распознавания.
#### Метод
Speech DF Arena представляет собой систему, которая позволяет сравнивать различные системы распознавания DeepFake. Она включает 14 различных бенчмарков и сценарии атак, а также 12 открытых и 3 проприетарных моделей распознавания. Методология включает стандартизированные протоколы оценки, чтобы обеспечить реплицируемость результатов и обеспечить сравнение моделей на разных данных и условиях. Также включена возможность сравнения моделей на лидерборде, что позволяет сравнить различные модели и определить самые эффективные.
#### Результаты
В рамках Speech DF Arena проведены широкомасштабные эксперименты с различными моделями и наборами данных. Оценены различные метрики, включая метрику EER (Equal Error Rate). Было обнаружено, что некоторые модели показывают высокую эффективность в определенных ситуациях, но их производительность значительно падает в кросс-доменных сценариях. Это подчеркивает необходимость в развитии кросс-доменных подходов для повышения надежности и устойчивости моделей.
#### Значимость
Speech DF Arena может быть применена в различных областях, включая безопасность, медицину, сервисы анализа голоса и др. Она обеспечивает мощный инструмент для развития моделей распознавания DeepFake, позволяя улучшить их надежность и кросс-доменную эффективность. В будущем, Speech DF Arena может быть расширена для включения более разнообразных сценариев и типов атак, чтобы непрерывно повышать качество распознавания.
#### Выводы
Speech DF Arena представляет собой первый стандартизированный бенчмарк для DeepFake-распознавания, который обеспечивает транспарентную и повторяемую оценку моделей. Он позволяет сравнить различные модели и выявить сильные и слабые стороны каждой из них. На основе открытых результатов моделей можно развивать новые подходы, которые повысят надежность и стойкость моделей против различных атак. В будущем, Speech DF Arena будет расширяться для включения более широкого спектра сценариев и типов атак.
Abstract
Parallel to the development of advanced deepfake audio generation, audio
deepfake detection has also seen significant progress. However, a standardized
and comprehensive benchmark is still missing. To address this, we introduce
Speech DeepFake (DF) Arena, the first comprehensive benchmark for audio
deepfake detection. Speech DF Arena provides a toolkit to uniformly evaluate
detection systems, currently across 14 diverse datasets and attack scenarios,
standardized evaluation metrics and protocols for reproducibility and
transparency. It also includes a leaderboard to compare and rank the systems to
help researchers and developers enhance their reliability and robustness. We
include 14 evaluation sets, 12 state-of-the-art open-source and 3 proprietary
detection systems. Our study presents many systems exhibiting high EER in
out-of-domain scenarios, highlighting the need for extensive cross-domain
evaluation. The leaderboard is hosted on Huggingface1 and a toolkit for
reproducing results across the listed datasets is available on GitHub.
Ссылки и действия
Дополнительные ресурсы: