Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder

2508.20474v1 eess.AS, cs.CL, cs.SD 2025-08-30
Авторы:

Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe

Резюме на русском

## Контекст Многоголосая диаризация, разделение речи и распознавание речи (ASR) являются ключевыми задачами в области обработки речи. Однако существующие подходы обрабатывают эти задачи по отдельности, часто применяя различные архитектуры и оптимизируя под каждую задачу. Это приводит к неэффективному использованию ресурсов и трудностям в обработке намного многоголосых данных. Мотивацией для этого исследования является развитие универсальной архитектуры, которая могла бы сгенерировать общие представления для всех этих задач, включая диаризацию, разделение и распознавание речи. Такой подход может не только упростить процесс обучения, но и повысить точность решения задач. ## Метод Многоголоский энкодер (UME) представляет собой сеть, которая объединяет задачи диаризации, разделения речи и ASR в единую структуру. Основной идеей является создание общего представления речи, используя несколько уровней скрытых слоев энкодера. Для эффективного слияния информации из разных слоев вводится метод разделения на мульти-спикер (RWSE), который учитывает различия в семантических уровнях. Эта архитектура обеспечивает более точную обработку, синхронизируя различные задачи и улучшая их взаимодействие. ## Результаты Для оценки UME были проведены эксперименты на LibriMix-сети, включающих Libri2Mix и Libri3Mix. Результаты показали, что UME достигает очень низких диаризационных ошибок (Diarization Error Rate, DER) — 1.37% для Libri2Mix и 2.29% для Libri3Mix. Это значительно превосходит результаты подходов, оптимизированных по отдельности для каждой задачи. Кроме того, UME демонстрирует высокую точность в распознавании речи, даже при наличии нескольких участников. ## Значимость Данный подход имеет широкие практические применения, включая системы обработки речи в звонках, конференциях и дистанционных собраниях. Он позволяет значительно упростить процесс обучения и использования для разных задач, сократив время и ресурсы. Улучшенная точность и общая эффективность UME делают его привлекательным для реальных приложений в условиях многоголосного разговора. ## Выводы Результаты показывают, что UME является эффективной архитектурой для решения многоголоской диаризации, разделения речи и ASR. Он устанавливает новые стандарты в точности на многоголосых данных и демонстрирует потенциал для улучшения многозадачных подходов в области обработки речи. Будущие исследования будут ориентированы на расширение UME для других задач и улучшение его реализации в реальных системах.

Abstract

This paper presents a unified multi-speaker encoder (UME), a novel architecture that jointly learns representations for speaker diarization (SD), speech separation (SS), and multi-speaker automatic speech recognition (ASR) tasks using a shared speech foundational encoder. We leverage the hidden representations from multiple layers of UME as a residual weighted-sum encoding (RWSE) to effectively use information from different semantic levels, contributing to bottom-up alignment between tasks. This joint training approach captures the inherent interdependencies among the tasks, enhancing overall performance on overlapping speech data. Our evaluations demonstrate that UME substantially improves over the single-task baselines dedicated to SD, SS, and multi-speaker ASR on LibriMix evaluation sets. Notably, for SD, UME outperforms the previous studies, achieving diarization error rates of 1.37% and 2.29% on Libri2Mix and Libri3Mix evaluation sets, respectively.

Ссылки и действия