Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling
2508.06393v1
cs.SD, cs.AI
2025-08-12
Авторы:
Md Asif Jalal, Luca Remaggi, Vasileios Moschopoulos, Thanasis Kotsiopoulos, Vandana Rajan, Karthikeyan Saravanan, Anastasis Drosou, Junho Heo, Hyuk Oh, Seokyeong Jeong
Резюме на русском
## Контекст
Одной из основных проблем в области распознавания речи является сопоставление слов говорящих с их источниками. Достижения в этой области имеют большое значение для практических применений, таких как автоматическая система распознавания речи, контроль разговорных телефонов, лексикологическая исследовательская работа и другие. Несмотря на некоторые успехи в районе диаризации речи и разделения речевых сигналов, существуют вызовы, связанные с неопределенностью поддерживающих сигналов, например, когда некоторые говорящие не имеют достаточных признаков для идентификации. Дополнительные трудности возникают при переносе этих моделей в реальные среды, где звуковые сигналы подвержены шумам и другим искажениям. Это преобразование становится еще более сложным при необходимости распознавать неизвестных говорящих без предварительного обучения на этих говорящих.
## Метод
Мы предлагаем новую архитектуру, которая автоматически идентифицирует говорящих в аудио-сигнале без предварительного опознавания. Метод состоит из двух этапов: стадия обучения и стадия оценки. В первой стадии мы используем автоматическую систему для выделения особенностей речи, которые позволяют идентифицировать различных говорящих. Эта система проводит автоматическое извлечение эмбеддингов речи из каждого говорящего с помощью модели, обученной на большом аннотированном наборе данных. Во второй стадии мы используем эти эмбеддинги для выделения случаев, когда говорящие пересекаются в речи (overlap), и для эффективного отделения речи каждого говорящего. Мы также внедрили потери для обучения, которые улучшают точность диаризации в случаях пересекающейся речи.
## Результаты
Мы провели эксперименты на нескольких значительных датасетах, включая AMI, DiDi, и LibriCSS. Наша модель представляет собой существенный прогресс по сравнению с текущими лучшими результатами в области диаризации речи. Мы достигли **71% относительного улучшения в DER (Диаризационная ошибка)** и **69% относительного улучшения в cpWER (CPU Word Error Rate)**. Эти результаты показали, что наш подход эффективен в ситуациях, когда говорящие неизвестны в момент обучения. Мы также проверили точность нашей модели в условиях сильного шума и пересечений речи, и она показала себя лучше, чем существующие модели.
## Значимость
Наш подход имеет широкие применения в реальной жизни, включая контроль разговорных систем, устройства с автоматическим распознаванием речи, и системы распознавания речи в мультиговорящих средах. Он также имеет преимущество в том, что он не требует предварительного
Abstract
Traditional speech separation and speaker diarization approaches rely on
prior knowledge of target speakers or a predetermined number of participants in
audio signals. To address these limitations, recent advances focus on
developing enrollment-free methods capable of identifying targets without
explicit speaker labeling. This work introduces a new approach to train
simultaneous speech separation and diarization using automatic identification
of target speaker embeddings, within mixtures. Our proposed model employs a
dual-stage training pipeline designed to learn robust speaker representation
features that are resilient to background noise interference. Furthermore, we
present an overlapping spectral loss function specifically tailored for
enhancing diarization accuracy during overlapped speech frames. Experimental
results show significant performance gains compared to the current SOTA
baseline, achieving 71% relative improvement in DER and 69% in cpWER.
Ссылки и действия
Дополнительные ресурсы: