Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection

2509.20682v1 cs.SD, cs.AI 2025-09-26
Авторы:

Duc-Tuan Truong, Tianchi Liu, Junjie Li, Ruijie Tao, Kong Aik Lee, Eng Siong Chng

Резюме на русском

## Контекст Одна из основных проблем в области глубокого подделывания речи (Deepfake Detection, DFD) заключается в том, что модели должны быть устойчивы к различным условиям речи и способам модификации звука. Данные для обучения моделей часто аugmented (усилены), чтобы улучшить их общеуниверсальность. Однако во время тренировки модели могут возникать конфликты между градиентами, полученными от исходных данных и их усиленных версий. Эти конфликты приводят к неэффективным обновлениям параметров модели, что может замедлить обучение и привести к плохим результатам. В этом исследовании решается проблема недостаточной совместимости градиентов в процессе обучения моделей к Deepfake Detection в условиях использования данных с аugmentation. ## Метод Мы предлагаем **двухпутной процесс обучения** с использованием оригинальных и усиленных версий звуковых данных. Оригинальные данные и их усиленные версии проходят через два отдельных пути обучения. Затем мы сравниваем и анализируем направления градиентов, полученных от двух версий аудио, чтобы выявить и устранить конфликты. Это позволяет привести направление градиентов к одному общему направлению, уменьшая количество конфликтов и улучшая процесс обучения. Метод был применен к модели Deepfake Detection в реальных условиях (In-the-Wild). ## Результаты Мы провели эксперименты на двух разных наборах данных: VCTK и In-the-Wild. Мы сравнили наш метод с базовой моделью, которая не использует метод алмагентезации градиентов. Результаты показали, что наш метод уменьшает количество эпох, необходимых для достижения оптимального результата, и повышает производительность модели. На In-the-Wild датасете, мы достигли уменьшения **Equal Error Rate (EER)** на **18.69%**, что является значительным улучшением по сравнению с базовой моделью. ## Значимость Наш метод имеет большое значение для области глубокого подделывания речи, так как он улучшает устойчивость моделей к разнообразным аудио-усилениям. Это позволяет моделям быть более точными и надежными в реальных условиях. Метод может быть применен в системах аудио-анализа для обнаружения поддельных звуковых файлов, в том числе в системах безопасности и модули для проверки аутентичности звуковых файлов в цифровых платформах. ## Выводы Мы успешно разработали двухпутную систему обучения с аугментированными данными для Deepfake Detection, которая устраняет конфликты между градиентами и улучшает обучение моделей. Наши результаты показали, что этот подход может быть эффективным для повышения точности и устойчивости моделей к разным аудио-усилениям. Мы планируем дальнейшее продолжение исследований в области улучшения моделей Deepfake Detection с использованием разных методов аугментации и сравнения их эфф

Abstract

In speech deepfake detection (SDD), data augmentation (DA) is commonly used to improve model generalization across varied speech conditions and spoofing attacks. However, during training, the backpropagated gradients from original and augmented inputs may misalign, which can result in conflicting parameter updates. These conflicts could hinder convergence and push the model toward suboptimal solutions, thereby reducing the benefits of DA. To investigate and address this issue, we design a dual-path data-augmented (DPDA) training framework with gradient alignment for SDD. In our framework, each training utterance is processed through two input paths: one using the original speech and the other with its augmented version. This design allows us to compare and align their backpropagated gradient directions to reduce optimization conflicts. Our analysis shows that approximately 25% of training iterations exhibit gradient conflicts between the original inputs and their augmented counterparts when using RawBoost augmentation. By resolving these conflicts with gradient alignment, our method accelerates convergence by reducing the number of training epochs and achieves up to an 18.69% relative reduction in Equal Error Rate on the In-the-Wild dataset compared to the baseline.

Ссылки и действия