SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription
2508.05554v1
cs.SD, cs.CL, eess.AS
2025-08-09
Авторы:
Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg
Резюме на русском
SPGISpeech 2.0 — это расширенный датасет для развития технологий автоматического распознавания речи (ASR) в финансовой сфере. Он включает 3,780 часов профессионально записанных выпуклых звонков, полностью текстово отмеченных и с идентификаторами речевых участников. Датасет позволяет решать задачи многоголосия в ASR, становясь ресурсом для улучшения технологий распознавания речи. Авторы подтвердили пользу SPGISpeech 2.0, продемонстрировав улучшения ASR-моделей, после того как эти модели были приспособлены к данным датасета. Релиз научного датасета в форме открытого доступа для некоммерческого использования, делает SPGISpeech 2.0 инструментом для продвижения инноваций в ASR. Это решение может оказаться ключевым для развития речевых технологий в отрасли.
Abstract
We introduce SPGISpeech 2.0, a dataset suitable for speaker-tagged
transcription in the financial domain. SPGISpeech 2.0 improves the diversity of
applicable modeling tasks while maintaining the core characteristic of the
original SPGISpeech dataset: audio snippets and their corresponding fully
formatted text transcriptions, usable for end-to-end automatic speech
recognition (ASR). SPGISpeech 2.0 consists of 3,780 additional hours of
professionally transcribed earnings calls. Furthermore, the dataset contains
call and speaker information for each audio snippet facilitating multi-talker
ASR. We validate the utility of SPGISpeech 2.0 through improvements in
speaker-tagged ASR performance of popular speech recognition models after
fine-tuning on SPGISpeech 2.0. Released free for non-commercial use, we expect
SPGISpeech 2.0 to foster advancements in speech recognition technologies and
inspire a wide range of research applications.
Ссылки и действия
Дополнительные ресурсы: