SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis

2508.07944v1 cs.SD, cs.AI, cs.CR 2025-08-13

Авторы:

Vojtěch Staněk, Karel Srna, Anton Firc, Kamil Malinka

Резюме на русском

## Контекст В последние годы возрастает внимание к проблемам глубокой фальшивости (deepfake) в речи, однако многие аспекты, такие как биазы и справедливость, остаются значительно недокрашенными. Это приводит к несбалансированному представлению в данных и несправедливости в результатах детектирования. Добиться более справедливой системы детектирования deepfake зачастую трудно из-за отсутствия представления различных демографических групп. Наша мотивация заключается в разработке справедливой и эффективной системы, которая будет учитывать эти факторы и устранять вклинивающиеся дискриминационные биазы. ## Метод Датасет SCDF (Speaker Characteristics Deepfake) был создан с целью охватить широкий диапазон демографических характеристик, включая пол, язык, возраст и тип генератора речи. Он включает более 237,000 утверждений, моделируемых с использованием многоязычных моделей глубокого обучения. Методология включает в себя подготовку и анализ данных, а также выполнение экспериментов с несколькими алгоритмами детектирования, чтобы исследовать точность и биазы в разных демографических группах. Это предоставляет возможность выявить и устранить существующие необходимые отклонения в системе. ## Результаты В результате экспериментов, проведенных с использованием SCDF, было показано, что дискриминационные биазы влияют на результаты детектирования deepfake. Например, системы оказались более точными для определенных групп (например, молодых мужчин), но менее точными для других (таких как пожилые женщины). Эти результаты подтверждают, что характеристики речи, такие как пол, язык и возраст, влияют на точность детектирования. Был также выявлен более широкий характер дискриминационных отклонений, включая технологии генерации голоса. ## Значимость SCDF может использоваться для разработки систем детектирования deepfake, которые будут более справедливыми и нейтральными в отношении различных демографических групп. Это дает возможность снизить отклонения в системах, улучшить их эффективность и сделать их более включающими. Это может привести к развитию и экосистемы, где системы deepfake будут более этичными и удовлетворять регулирующим требованиям. ## Выводы SCDF представляет собой первый широко изучаемый датасет, позволяющий оценивать дискриминационные биазы в системах детектирования deepfake. Он открывает путь для будущих исследований в области справедливости и этики в сфере глубокой фальшивости. Наша работа также подчеркивает важность развития систем, которые будут у

Abstract

Despite growing attention to deepfake speech detection, the aspects of bias and fairness remain underexplored in the speech domain. To address this gap, we introduce the Speaker Characteristics Deepfake (SCDF) dataset: a novel, richly annotated resource enabling systematic evaluation of demographic biases in deepfake speech detection. SCDF contains over 237,000 utterances in a balanced representation of both male and female speakers spanning five languages and a wide age range. We evaluate several state-of-the-art detectors and show that speaker characteristics significantly influence detection performance, revealing disparities across sex, language, age, and synthesizer type. These findings highlight the need for bias-aware development and provide a foundation for building non-discriminatory deepfake detection systems aligned with ethical and regulatory standards.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация