Interpolating Speaker Identities in Embedding Space for Data Expansion

2508.19210v1 eess.AS, cs.AI 2025-08-28
Авторы:

Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li

Резюме на русском

## Контекст СуCCESS глубокого обучения в системах распознавания речи и сигналов голоса тесно связан с доступом к большим, разнообразным и качественным данным, особенно в сфере распознавания речи по голосу. Однако получение таких данных часто связано с значительными трудностями, включая высокие затраты, сложность приемлемого сбора и ограничения в плане конфиденциальности. Эти факторы ограничивают мощность и широту применения технологий распознавания голоса. Ввиду этих проблем в статье предлагается новая методика, позволяющая увеличить объем данных для обучения, основываясь на интерполяции существующих спикер-идентификаторов. ## Метод Метод, предлагаемый в статье, называется **INSIDE (Interpolating Speaker Identities in Embedding Space)**. Он основывается на интерполяции между существующими спикер-идентификаторами в подготовленном пространстве эмбеддингов. Процесс включает в себя выбор близких спикер-идентификаторов, вычисление их интерполированных эмбеддингов с помощью сферической линейной интерполяции и генерацию новых аудиофайлов с помощью текстово-речевой системы. Эти генерируемые данные добавляются к исходному набору данных для последующего обучения моделей. Такая методика позволяет значительно расширить потенциальные источники для моделей распознавания голоса без необходимости сбора новых данных, а также повысить разнообразие тренировочных данных. ## Результаты Эксперименты показали, что модели, обученные на данных, расширенных методом INSIDE, демонстрируют значительные улучшения в плане точности распознавания. Точность распознавания в системах распознавания речи увеличивается на 3.06% до 5.24% в зависимости от типа тестовой задачи и данных. Также был проведен эксперимент на задаче классификации пола, где INSIDE показал улучшение в 13.44% по отношению к значениям классификации без использования этого метода. Эти результаты демонстрируют значимую эффективность INSIDE в расширении данных и улучшении результатов моделей. ## Значимость Предлагаемый подход имеет широкие возможности применения в системах распознавания речи и сигналов голоса. Он обеспечивает значительную экономию времени и ресурсов, позволяя создавать более разнообразные и качественные наборы данных для моделей. Увеличение количества данных позволяет улучшить точность распознавания и обеспечить более высокую разнообразность моделей, что в итоге приводит к лучшему качеству использования в реальных ситуациях. Инновационность метода заключается в том, что он не только эффективен, но и гибкий, позволяя интегрироваться с другими техниками увеличения данных. ## Выводы В целом, INSIDE является про

Abstract

The success of deep learning-based speaker verification systems is largely attributed to access to large-scale and diverse speaker identity data. However, collecting data from more identities is expensive, challenging, and often limited by privacy concerns. To address this limitation, we propose INSIDE (Interpolating Speaker Identities in Embedding Space), a novel data expansion method that synthesizes new speaker identities by interpolating between existing speaker embeddings. Specifically, we select pairs of nearby speaker embeddings from a pretrained speaker embedding space and compute intermediate embeddings using spherical linear interpolation. These interpolated embeddings are then fed to a text-to-speech system to generate corresponding speech waveforms. The resulting data is combined with the original dataset to train downstream models. Experiments show that models trained with INSIDE-expanded data outperform those trained only on real data, achieving 3.06\% to 5.24\% relative improvements. While INSIDE is primarily designed for speaker verification, we also validate its effectiveness on gender classification, where it yields a 13.44\% relative improvement. Moreover, INSIDE is compatible with other augmentation techniques and can serve as a flexible, scalable addition to existing training pipelines.

Ссылки и действия