Interpolating Speaker Identities in Embedding Space for Data Expansion
2508.19210v1
eess.AS, cs.AI
2025-08-28
Авторы:
Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li
Резюме на русском
## Контекст
СуCCESS глубокого обучения в системах распознавания речи и сигналов голоса тесно связан с доступом к большим, разнообразным и качественным данным, особенно в сфере распознавания речи по голосу. Однако получение таких данных часто связано с значительными трудностями, включая высокие затраты, сложность приемлемого сбора и ограничения в плане конфиденциальности. Эти факторы ограничивают мощность и широту применения технологий распознавания голоса. Ввиду этих проблем в статье предлагается новая методика, позволяющая увеличить объем данных для обучения, основываясь на интерполяции существующих спикер-идентификаторов.
## Метод
Метод, предлагаемый в статье, называется **INSIDE (Interpolating Speaker Identities in Embedding Space)**. Он основывается на интерполяции между существующими спикер-идентификаторами в подготовленном пространстве эмбеддингов. Процесс включает в себя выбор близких спикер-идентификаторов, вычисление их интерполированных эмбеддингов с помощью сферической линейной интерполяции и генерацию новых аудиофайлов с помощью текстово-речевой системы. Эти генерируемые данные добавляются к исходному набору данных для последующего обучения моделей. Такая методика позволяет значительно расширить потенциальные источники для моделей распознавания голоса без необходимости сбора новых данных, а также повысить разнообразие тренировочных данных.
## Результаты
Эксперименты показали, что модели, обученные на данных, расширенных методом INSIDE, демонстрируют значительные улучшения в плане точности распознавания. Точность распознавания в системах распознавания речи увеличивается на 3.06% до 5.24% в зависимости от типа тестовой задачи и данных. Также был проведен эксперимент на задаче классификации пола, где INSIDE показал улучшение в 13.44% по отношению к значениям классификации без использования этого метода. Эти результаты демонстрируют значимую эффективность INSIDE в расширении данных и улучшении результатов моделей.
## Значимость
Предлагаемый подход имеет широкие возможности применения в системах распознавания речи и сигналов голоса. Он обеспечивает значительную экономию времени и ресурсов, позволяя создавать более разнообразные и качественные наборы данных для моделей. Увеличение количества данных позволяет улучшить точность распознавания и обеспечить более высокую разнообразность моделей, что в итоге приводит к лучшему качеству использования в реальных ситуациях. Инновационность метода заключается в том, что он не только эффективен, но и гибкий, позволяя интегрироваться с другими техниками увеличения данных.
## Выводы
В целом, INSIDE является про
Abstract
The success of deep learning-based speaker verification systems is largely
attributed to access to large-scale and diverse speaker identity data. However,
collecting data from more identities is expensive, challenging, and often
limited by privacy concerns. To address this limitation, we propose INSIDE
(Interpolating Speaker Identities in Embedding Space), a novel data expansion
method that synthesizes new speaker identities by interpolating between
existing speaker embeddings. Specifically, we select pairs of nearby speaker
embeddings from a pretrained speaker embedding space and compute intermediate
embeddings using spherical linear interpolation. These interpolated embeddings
are then fed to a text-to-speech system to generate corresponding speech
waveforms. The resulting data is combined with the original dataset to train
downstream models. Experiments show that models trained with INSIDE-expanded
data outperform those trained only on real data, achieving 3.06\% to 5.24\%
relative improvements. While INSIDE is primarily designed for speaker
verification, we also validate its effectiveness on gender classification,
where it yields a 13.44\% relative improvement. Moreover, INSIDE is compatible
with other augmentation techniques and can serve as a flexible, scalable
addition to existing training pipelines.
Ссылки и действия
Дополнительные ресурсы: