SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription

2508.05554v1 cs.SD, cs.CL, eess.AS 2025-08-09
Авторы:

Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg

Резюме на русском

SPGISpeech 2.0 — это расширенный датасет для развития технологий автоматического распознавания речи (ASR) в финансовой сфере. Он включает 3,780 часов профессионально записанных выпуклых звонков, полностью текстово отмеченных и с идентификаторами речевых участников. Датасет позволяет решать задачи многоголосия в ASR, становясь ресурсом для улучшения технологий распознавания речи. Авторы подтвердили пользу SPGISpeech 2.0, продемонстрировав улучшения ASR-моделей, после того как эти модели были приспособлены к данным датасета. Релиз научного датасета в форме открытого доступа для некоммерческого использования, делает SPGISpeech 2.0 инструментом для продвижения инноваций в ASR. Это решение может оказаться ключевым для развития речевых технологий в отрасли.

Abstract

We introduce SPGISpeech 2.0, a dataset suitable for speaker-tagged transcription in the financial domain. SPGISpeech 2.0 improves the diversity of applicable modeling tasks while maintaining the core characteristic of the original SPGISpeech dataset: audio snippets and their corresponding fully formatted text transcriptions, usable for end-to-end automatic speech recognition (ASR). SPGISpeech 2.0 consists of 3,780 additional hours of professionally transcribed earnings calls. Furthermore, the dataset contains call and speaker information for each audio snippet facilitating multi-talker ASR. We validate the utility of SPGISpeech 2.0 through improvements in speaker-tagged ASR performance of popular speech recognition models after fine-tuning on SPGISpeech 2.0. Released free for non-commercial use, we expect SPGISpeech 2.0 to foster advancements in speech recognition technologies and inspire a wide range of research applications.

Ссылки и действия