SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

2508.06372v1 cs.SD, cs.AI 2025-08-12

Авторы:

Han Yin, Yafeng Chen, Chong Deng, Luyao Cheng, Hui Wang, Chao-Hong Tan, Qian Chen, Wen Wang, Xiangang Li

Резюме на русском

## Контекст Вопрос определения "кто говорил, когда и что" (Speaker Diarization and Recognition, SDR) является ключевым заданием в решении задач обработки речи в реальных мультиспикерских сценариях, таких как транскрипция митингов и системы диалогов. Традиционные модели SDR часто используют каскадный подход, объединяя модули диагностики речи (SD) и автоматической распознавательной речи (ASR). Однако этот подход страдает от проблемы пропускания ошибок, сложности обработки перекрывающейся речи и отсутствия совместной оптимизации для извлечения синергии между SD и ASR. Целью данной работы является разработка продвинутой модели, которая могла бы объединить эти задачи в единую модель и сделать ее более универсальной и эффективной в многоголосых ситуациях. ## Метод Мы предлагаем SpeakerLM, универсальную модель на основе больших языковых моделей, которая выполняет диагностику речи и распознавание речи в рамках единого процесса. Модель обучается в составе многоэтапного процесса на основе больших наборов реальных данных. Чтобы улучшить ее универсальность, в модель внедрен механизм регистрации речи в режиме реального времени, который позволяет ей работать в различных условиях регистрации голосов. Эта модель является новаторским подходом к решению SDR, где оба процесса (диагностика речи и распознавание речи) объединены в единую модель и могут работать в реальном времени. ## Результаты Мы проводили тестирование модели SpeakerLM на нескольких важных бенчмарк-наборах данных SDR, включая в домене и за его пределами. У нас были проведены эксперименты с разными условиями регистрации речи, включая ситуации с значительным количеством регистрируемых речи и меньшим. Результаты показывают, что SpeakerLM превосходит современные каскадные модели SDR в области как внутридоменных, так и внедоменных задач. Было установлено, что модель обладает высокой сходимостью и обрабатывает перекрывающуюся речь эффективно. Также, механизм регистрации голосов продемонстрировал свою эффективность в обеспечении устойчивости модели в разных условиях регистрации. ## Значимость Результаты SpeakerLM могут быть применены в различных реальных сценариях, таких как транскрипция митингов, системы диалогов и устройства для управления голосом. Возможность объединять диагностику речи и распознавание речи в единую модель увеличивает эффективность и уменьшает возможность ошибок в различных задачах. Механизм регистрации речи делает модель более универсальной и пригодной для применения в разных реальных ситуациях. Этот подход может эффективно улучшить качество работы систем диалогов, автоматических транскрибировщиков и других систем, которым требуется рабо

Abstract

The Speaker Diarization and Recognition (SDR) task aims to predict "who spoke when and what" within an audio clip, which is a crucial task in various real-world multi-speaker scenarios such as meeting transcription and dialogue systems. Existing SDR systems typically adopt a cascaded framework, combining multiple modules such as speaker diarization (SD) and automatic speech recognition (ASR). The cascaded systems suffer from several limitations, such as error propagation, difficulty in handling overlapping speech, and lack of joint optimization for exploring the synergy between SD and ASR tasks. To address these limitations, we introduce SpeakerLM, a unified multimodal large language model for SDR that jointly performs SD and ASR in an end-to-end manner. Moreover, to facilitate diverse real-world scenarios, we incorporate a flexible speaker registration mechanism into SpeakerLM, enabling SDR under different speaker registration settings. SpeakerLM is progressively developed with a multi-stage training strategy on large-scale real data. Extensive experiments show that SpeakerLM demonstrates strong data scaling capability and generalizability, outperforming state-of-the-art cascaded baselines on both in-domain and out-of-domain public SDR benchmarks. Furthermore, experimental results show that the proposed speaker registration mechanism effectively ensures robust SDR performance of SpeakerLM across diverse speaker registration conditions and varying numbers of registered speakers.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация