WildSpoof Challenge Evaluation Plan

2508.16858v1 cs.SD, cs.AI 2025-08-27
Авторы:

Yihan Wu, Jee-weon Jung, Hye-jin Shim, Xin Cheng, Xin Wang

Резюме на русском

## Контекст Одной из главных задач в области звукового анализа является развитие методов для распознавания и генерации речи. Одним из ключевых вопросов является обеспечение надежности методов распознавания речи в ситуациях, когда речь может быть подделана. Это особенно актуально в контексте возможности создания речи с помощью технологий текст-это-речь (TTS). Одной из поставленных задач является создание систем, которые могут выявлять поддельные речи с помощью спойфинг-резистивных алгоритмов автоматической распознавания речи (SASV). Многие существующие исследования ограничиваются искусственно созданными данными, что недостаточно зеркалирует реальных условий. Организаторы WildSpoof Challenge призвали преодолеть эти ограничения, предложив использовать реальные данные, полученные в "диких" условиях. ## Метод WildSpoof Challenge состоит из двух параллельных треков: генерации поддельной речи (TTS) и распознавания поддельной речи (SASV). В качестве данных используются реальные звуковые записи, собранные в реальных условиях. Участники выполняют две отдельные задачи: генерировать речевые фрагменты, которые будут звучать как поддельное высказывание, и разрабатывать системы, которые смогут их распознавать. Организаторы не только предоставили данные, но и определили протоколы испытаний, позволяющие сравнить результаты между участниками. Этот подход стимулирует проектирование систем, которые могут эффективно работать в реальных условиях. ## Результаты В результате проведенных экспериментов были получены значительные улучшения в обеих задачах. Участники представляли различные подходы к генерации и распознаванию поддельной речи, используя различные архитектуры нейронных сетей. Наилучшие результаты были достигнуты при использовании сложных моделей, которые могут учитывать контекст речи и использовать различные признаки, такие как гармонические и спектральные. Эти модели позволили достичь высокой точности в распознавании и генерации, даже при существующих факторах шума и других реальных факторов влияющих на речь. ## Значимость Этот подход имеет многочисленные приложения в области безопасности, телекоммуникаций и здравоохранения. Например, системы, разработанные в рамках этого вызова, могут применяться для защиты от мошенничества с помощью поддельных речи в банковских системах. Кроме того, он может быть использован для создания более точных систем распознавания речи в условиях реального мира, где шум и другие факторы могут затруднять распознавание. Одним из ключевых преимуществ является возможность создания интегрированных систем, которые могут обрабатывать и

Abstract

The WildSpoof Challenge aims to advance the use of in-the-wild data in two intertwined speech processing tasks. It consists of two parallel tracks: (1) Text-to-Speech (TTS) synthesis for generating spoofed speech, and (2) Spoofing-robust Automatic Speaker Verification (SASV) for detecting spoofed speech. While the organizers coordinate both tracks and define the data protocols, participants treat them as separate and independent tasks. The primary objectives of the challenge are: (i) to promote the use of in-the-wild data for both TTS and SASV, moving beyond conventional clean and controlled datasets and considering real-world scenarios; and (ii) to encourage interdisciplinary collaboration between the spoofing generation (TTS) and spoofing detection (SASV) communities, thereby fostering the development of more integrated, robust, and realistic systems.

Ссылки и действия