Generalizable Speech Deepfake Detection via Information Bottleneck Enhanced Adversarial Alignment

2509.23618v1 cs.SD, cs.AI 2025-10-01

Авторы:

Pu Huang, Shouguang Wang, Siya Yao, Mengchu Zhou

Резюме на русском

## Контекст Современные технологии нейронной синтеза речи позволяют создавать реалистичные аудио-дыбофы, которые представляют серьезную угрозу безопасности. Однако аудио-дыбофы часто варьируются по способу синтеза, рекордеру, способу передачи и другим параметрам, что усложняет их обнаружение. Надежная детекция необходима для защиты от мошенничества, шпионажа и других вредоносных действий. Большинство существующих методов адаптируются только к конкретным видам дыбофов, что приводит к ограниченной обобщаемости. Мы предлагаем общеизучимую модель, которая отличается высокой универсальностью и точностью, способной обнаруживать аудио-дыбофы в различных условиях. ## Метод Мы предлагаем модель **Information Bottleneck enhanced Confidence-Aware Adversarial Network (IB-CAAN)**, которая объединяет несколько ключевых техник. **Confidence-guided adversarial alignment** выявляет и уменьшает специфичные для атаки артефакты без удаления важных объективных признаков. Эта техника позволяет модели ориентироваться только на существенные черты. **Information Bottleneck** уменьшает неинформативную вариативность, такую как голосовые характеристики и условия записи, чтобы сохранить трансферируемые признаки для обнаружения. Архитектура IB-CAAN состоит из нескольких слоев, которые взаимодействуют для обнаружения дыбофов, учитывая общие признаки в различных условиях. ## Результаты Мы проверили модель IB-CAAN на различных датасетах: ASVspoof 2019, ASVspoof 2021, ASVspoof 5 и In-the-Wild. На этих наборах данных IB-CAAN показала стабильно высокую точность, превосходя существующие методы. На ASVspoof 2019/2021 модель демонстрирует **F1-score** в районе **95%**, что значительно превышает базовые результаты. В In-the-Wild условиях IB-CAAN удалось выделить дыбофы с более высокой точностью по сравнению с другими сетями. Эти результаты показывают, что IB-CAAN является оптимальным выбором для обнаружения дыбофов в различных условиях. ## Значимость Модель IB-CAAN может применяться в различных областях, таких как безопасность систем голосовой идентификации, защита от мошенничества и обнаружение поддельных аудио. Универсальность IB-CAAN позволяет ей быть эффективной в различных сценариях, включая ситуации с многочисленными говорящими, разных каналами передачи и различными условиями записи. Такая модель может существенно улучшить уровень безопасности в цифровых системах, защищая пользователей от мошенничества, шпионажа и других вредоносных действий. ## Выводы Мы предложили модель IB-CAAN, которая стабильно превосходит существующие методы в обнаружении аудио-дыбофов. Результаты экспериментов пока

Abstract

Neural speech synthesis techniques have enabled highly realistic speech deepfakes, posing major security risks. Speech deepfake detection is challenging due to distribution shifts across spoofing methods and variability in speakers, channels, and recording conditions. We explore learning shared discriminative features as a path to robust detection and propose Information Bottleneck enhanced Confidence-Aware Adversarial Network (IB-CAAN). Confidence-guided adversarial alignment adaptively suppresses attack-specific artifacts without erasing discriminative cues, while the information bottleneck removes nuisance variability to preserve transferable features. Experiments on ASVspoof 2019/2021, ASVspoof 5, and In-the-Wild demonstrate that IB-CAAN consistently outperforms baseline and achieves state-of-the-art performance on many benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Generalizable Speech Deepfake Detection via Information Bottleneck Enhanced Adversarial Alignment

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация