## Контекст
В последние годы технологии генерации звуков, включая глубокую подмену речи (deepfake speech), получили широкое распространение, особенно на сетях социальных медиа. Эти технологии используются для создания иллюзии речи, которая может использоваться в подделке, мошенничестве или дестабилизации. Хотя существуют методы поддельной речи (countermeasures, CMs), которые демонстрируют успех на открытых наборах данных, их эффективность значительно снижается при переносе на реальные сценарии, особенно в контексте социальных сетей. Это мотивирует развитие методов, которые могут быть эффективны для распознавания подмены речи в реальной среде.
## Метод
Мы предлагаем Fake Speech Wild (FSW), новый набор данных, содержащий 254 часов реальной и подменной речи, собранных из четырех медийных платформ: YouTube, TikTok, Facebook и Reddit. Набор FSW фокусируется на звуковых материалах из социальных сетей, чтобы повысить реалистичность. Для оценки существующих CMs мы используем общую метрику EER (Equal Error Rate), чтобы провести бенчмарк на новом датасете, а также на других известных датасетах. Мы проводим эксперименты с аугментацией данных, включая методы SSL (self-supervised learning), чтобы улучшить чувствительность CMs к разным стилям речи и сценариям.
## Результаты
Наши эксперименты показали, что CMs, основанные на SSL, улучшают ретроспективные результаты на FSW до 3.54% EER, что значительно превышает результаты, достигнутые на других датасетах. Мы также доказали, что аугментация данных в FSW и использование методов SSL могут значительно улучшить точность распознавания, особенно в условиях реальной среды. Наши данные показывают, что наше решение эффективно в задаче поддельной речи в социальных сетях, где другие методы часто терпят неудачу.
## Значимость
Решение, предложенное в данной работе, может использоваться в различных областях, включая мониторинг содержимого в социальных сетях, защиту от мошенничества и безопасность в сетях. Это особенно важно в связи с ростом глубоких подменов речи, которые могут использоваться для распространения ложных сообщений. Мы показали, что наш метод не только улучшает точность, но и расширяет возможности для распознавания речи в новых, нестандартных сценариях.
## Выводы
Мы предлагаем новый датасет FSW, который является реалистичным и полезным для развития методов распознавания подмены речи. Наши эксперименты показали, что CMs, основанные на SSL, дают существенный прирост в эффективности. Мы считаем, что этот подход может стать новой стандартной практикой для распознавания подмены речи в сетях социальных медиа. В будущем, мы планируем расширить дата