Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling

2508.06393v1 cs.SD, cs.AI 2025-08-12

Авторы:

Md Asif Jalal, Luca Remaggi, Vasileios Moschopoulos, Thanasis Kotsiopoulos, Vandana Rajan, Karthikeyan Saravanan, Anastasis Drosou, Junho Heo, Hyuk Oh, Seokyeong Jeong

Резюме на русском

## Контекст Одной из основных проблем в области распознавания речи является сопоставление слов говорящих с их источниками. Достижения в этой области имеют большое значение для практических применений, таких как автоматическая система распознавания речи, контроль разговорных телефонов, лексикологическая исследовательская работа и другие. Несмотря на некоторые успехи в районе диаризации речи и разделения речевых сигналов, существуют вызовы, связанные с неопределенностью поддерживающих сигналов, например, когда некоторые говорящие не имеют достаточных признаков для идентификации. Дополнительные трудности возникают при переносе этих моделей в реальные среды, где звуковые сигналы подвержены шумам и другим искажениям. Это преобразование становится еще более сложным при необходимости распознавать неизвестных говорящих без предварительного обучения на этих говорящих. ## Метод Мы предлагаем новую архитектуру, которая автоматически идентифицирует говорящих в аудио-сигнале без предварительного опознавания. Метод состоит из двух этапов: стадия обучения и стадия оценки. В первой стадии мы используем автоматическую систему для выделения особенностей речи, которые позволяют идентифицировать различных говорящих. Эта система проводит автоматическое извлечение эмбеддингов речи из каждого говорящего с помощью модели, обученной на большом аннотированном наборе данных. Во второй стадии мы используем эти эмбеддинги для выделения случаев, когда говорящие пересекаются в речи (overlap), и для эффективного отделения речи каждого говорящего. Мы также внедрили потери для обучения, которые улучшают точность диаризации в случаях пересекающейся речи. ## Результаты Мы провели эксперименты на нескольких значительных датасетах, включая AMI, DiDi, и LibriCSS. Наша модель представляет собой существенный прогресс по сравнению с текущими лучшими результатами в области диаризации речи. Мы достигли **71% относительного улучшения в DER (Диаризационная ошибка)** и **69% относительного улучшения в cpWER (CPU Word Error Rate)**. Эти результаты показали, что наш подход эффективен в ситуациях, когда говорящие неизвестны в момент обучения. Мы также проверили точность нашей модели в условиях сильного шума и пересечений речи, и она показала себя лучше, чем существующие модели. ## Значимость Наш подход имеет широкие применения в реальной жизни, включая контроль разговорных систем, устройства с автоматическим распознаванием речи, и системы распознавания речи в мультиговорящих средах. Он также имеет преимущество в том, что он не требует предварительного

Abstract

Traditional speech separation and speaker diarization approaches rely on prior knowledge of target speakers or a predetermined number of participants in audio signals. To address these limitations, recent advances focus on developing enrollment-free methods capable of identifying targets without explicit speaker labeling. This work introduces a new approach to train simultaneous speech separation and diarization using automatic identification of target speaker embeddings, within mixtures. Our proposed model employs a dual-stage training pipeline designed to learn robust speaker representation features that are resilient to background noise interference. Furthermore, we present an overlapping spectral loss function specifically tailored for enhancing diarization accuracy during overlapped speech frames. Experimental results show significant performance gains compared to the current SOTA baseline, achieving 71% relative improvement in DER and 69% in cpWER.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация