SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models
2508.06372v1
cs.SD, cs.AI
2025-08-12
Авторы:
Han Yin, Yafeng Chen, Chong Deng, Luyao Cheng, Hui Wang, Chao-Hong Tan, Qian Chen, Wen Wang, Xiangang Li
Резюме на русском
## Контекст
Вопрос определения "кто говорил, когда и что" (Speaker Diarization and Recognition, SDR) является ключевым заданием в решении задач обработки речи в реальных мультиспикерских сценариях, таких как транскрипция митингов и системы диалогов. Традиционные модели SDR часто используют каскадный подход, объединяя модули диагностики речи (SD) и автоматической распознавательной речи (ASR). Однако этот подход страдает от проблемы пропускания ошибок, сложности обработки перекрывающейся речи и отсутствия совместной оптимизации для извлечения синергии между SD и ASR. Целью данной работы является разработка продвинутой модели, которая могла бы объединить эти задачи в единую модель и сделать ее более универсальной и эффективной в многоголосых ситуациях.
## Метод
Мы предлагаем SpeakerLM, универсальную модель на основе больших языковых моделей, которая выполняет диагностику речи и распознавание речи в рамках единого процесса. Модель обучается в составе многоэтапного процесса на основе больших наборов реальных данных. Чтобы улучшить ее универсальность, в модель внедрен механизм регистрации речи в режиме реального времени, который позволяет ей работать в различных условиях регистрации голосов. Эта модель является новаторским подходом к решению SDR, где оба процесса (диагностика речи и распознавание речи) объединены в единую модель и могут работать в реальном времени.
## Результаты
Мы проводили тестирование модели SpeakerLM на нескольких важных бенчмарк-наборах данных SDR, включая в домене и за его пределами. У нас были проведены эксперименты с разными условиями регистрации речи, включая ситуации с значительным количеством регистрируемых речи и меньшим. Результаты показывают, что SpeakerLM превосходит современные каскадные модели SDR в области как внутридоменных, так и внедоменных задач. Было установлено, что модель обладает высокой сходимостью и обрабатывает перекрывающуюся речь эффективно. Также, механизм регистрации голосов продемонстрировал свою эффективность в обеспечении устойчивости модели в разных условиях регистрации.
## Значимость
Результаты SpeakerLM могут быть применены в различных реальных сценариях, таких как транскрипция митингов, системы диалогов и устройства для управления голосом. Возможность объединять диагностику речи и распознавание речи в единую модель увеличивает эффективность и уменьшает возможность ошибок в различных задачах. Механизм регистрации речи делает модель более универсальной и пригодной для применения в разных реальных ситуациях. Этот подход может эффективно улучшить качество работы систем диалогов, автоматических транскрибировщиков и других систем, которым требуется рабо
Abstract
The Speaker Diarization and Recognition (SDR) task aims to predict "who spoke
when and what" within an audio clip, which is a crucial task in various
real-world multi-speaker scenarios such as meeting transcription and dialogue
systems. Existing SDR systems typically adopt a cascaded framework, combining
multiple modules such as speaker diarization (SD) and automatic speech
recognition (ASR). The cascaded systems suffer from several limitations, such
as error propagation, difficulty in handling overlapping speech, and lack of
joint optimization for exploring the synergy between SD and ASR tasks. To
address these limitations, we introduce SpeakerLM, a unified multimodal large
language model for SDR that jointly performs SD and ASR in an end-to-end
manner. Moreover, to facilitate diverse real-world scenarios, we incorporate a
flexible speaker registration mechanism into SpeakerLM, enabling SDR under
different speaker registration settings. SpeakerLM is progressively developed
with a multi-stage training strategy on large-scale real data. Extensive
experiments show that SpeakerLM demonstrates strong data scaling capability and
generalizability, outperforming state-of-the-art cascaded baselines on both
in-domain and out-of-domain public SDR benchmarks. Furthermore, experimental
results show that the proposed speaker registration mechanism effectively
ensures robust SDR performance of SpeakerLM across diverse speaker registration
conditions and varying numbers of registered speakers.
Ссылки и действия
Дополнительные ресурсы: