📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Xi Xuan, Zimo Zhu, Wenxin Zhang, Yi-Cheng Lin, Tomi Kinnunen
## Контекст
Синтез речи продолжает развиваться, однако это приносит новые секретностных угрозы, особенно в области глубокого подделывания речи (deepfake). Определение и анализ таких поддельных речевых фрагментов становится ключевым для защиты от мошенничества и фальсификации. Несмотря на то, что существуют современные способы обнаружения deepfake, они часто сталкиваются с проблемами, такими как высокая задержка и ограниченная обнаружительная эффективность.
Fake-Mamba предлагает альтернативный подход к обнаружению deepfake, используя bidirectional Mamba в качестве альтернативы Self-Attention. Этот подход может обнаруживать не только локальные, но и глобальные особенности синтетической речи. Он имеет реальное время обработки, что делает его пригодным для практического применения в реальных условиях. Этот подход может быть применен для борьбы с мошенничеством, защиты личных данных и обеспечения безопасности в системах управления доступом.
## Метод
Fake-Mamba основывается на XLSR-архитектуре, которая хранит богатые звуковые представления. Библиотека Mamba, в качестве альтернативы Self-Attention, используется для получения глобальных и локальных контекстов речи. Разработаны три различных модели: TransBiMamba, ConBiMamba и PN-BiMamba. Эти модели сочетают в себе локальные и глобальные характеристики, чтобы обнаруживать не только синтетические элементы речи, но и различия в вариациях интонации.
Fake-Mamba была тщательно тренирована на широком диапазоне данных, включая ASVspoof 21 LA, 21 DF и In-The-Wild, чтобы обеспечить высокую точность и обнаружение поддельных речи в разных условиях. Инновационными являются специальные эффективные модули, созданные для того, чтобы повысить производительность и точность модели.
## Результаты
Fake-Mamba была протестирована на трех различных наборах данных. На ASVspoof 21 LA, 21 DF и In-The-Wild она показала значения Equal Error Rate (EER) 0.97%, 1.74% и 5.85%, соответственно. Это превышает результаты для других новых моделей, таких как XLSR-Conformer и XLSR-Mamba. Результаты показывают, что Fake-Mamba обеспечивает высокую точность в реальном времени, даже при обработке длинных фрагментов речи. Она также демонстрирует высокую обнаружительную эффективность на различных наборах данных, что делает ее широко применимой в различных сценариях.
## Значимость
Fake-Mamba может использоваться в различных областях, включая безопасность цифровых систем, защиту от фишинга, идентификацию злоумышленников и защиту личных данных. Она предлагает несколько преимуществ, таких как более высокая точность, меньшая задержка и широкая генерализуемость. Этот подход может привести к значительным улучшениям в защите от мошеннич
Annotation:
Advances in speech synthesis intensify security threats, motivating real-time
deepfake detection research. We investigate whether bidirectional Mamba can
serve as a competitive alternative to Self-Attention in detecting synthetic
speech. Our solution, Fake-Mamba, integrates an XLSR front-end with
bidirectional Mamba to capture both local and global artifacts. Our core
innovation introduces three efficient encoders: TransBiMamba, ConBiMamba, and
PN-BiMamba. Leveraging XLSR's rich linguistic repre...