OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

2508.20869v1 cs.SD, cs.CL, cs.LG, eess.AS 2025-08-29

Авторы:

Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt

Резюме на русском

## Контекст Обучение моделей распознавания речи является ключевым вопросом в интеллектуальных системах. Несмотря на улучшение методов обучения и доступность больших корпусов текстов и аудио, развитие моделей, способных высококвалифицированное распознавание речи в нетренировочных условиях, остается недостаточно изученным. Особенно это касается сценариев с нулевым допущением, где необходимо справиться с незнакомыми акцентами, языками и стилями речи. Данная работа основывается на необходимости создания прозрачных моделей и данных, которые способствуют продвижению исследований в области зеркального распознавания речи. ## Метод Для исследований в области зеркального распознавания речи был разработан корпус OLMoASR-Pool, содержащий 3 миллиона часов аудио и 17 миллионов транскрипций на английском языке. Данный корпус был отфильтрован с помощью текстовых фильтров, чтобы исключить низкокачественные или неточно транскрибированные данные. В итоге был получен корпус OLMoASR-Mix, содержащий 1 миллион часов высококачественных аудио-транскрипций. На этом корпусе были обучены модели OLMoASR с различными параметрами, начиная от 39 миллионов (tiny.en) до 1.5 миллиардов (large.en) параметров. ## Результаты Обученные модели OLMoASR-Mix прошли тестирование на множестве коротких и длинных форм речи, а также были сравнены с моделью OpenAI Whisper. Модели OLMoASR-medium.en показали результаты, схожие с задней версией Whisper-medium.en, с WER 12.8% для коротких форм и 11.0% для длинных форм. Эти результаты указывают на высокую эффективность моделей OLMoASR в области зеркального распознавания речи. ## Значимость Области применения OLMoASR-Mix включают разработку моделей для распознавания речи в нетренировочных условиях, а также для построения систем, которые могут работать в разных акцентах и языках. Важность исследования заключается в том, что оно демонстрирует возможность повышения качества распознавания речи с помощью прозрачного подхода к созданию моделей и данных. ## Выводы Выводы работы указывают на успех построения масштабного корпуса и моделей для зеркального распознавания речи. Будущие исследования будут фокусироваться на расширении данного подхода на другие языки, а также на повышение качества речи в сценариях низкого ресурса. Общедоступность OLMoASR-Pool, моделей и кода позволит дальнейшему продвижению исследований в этой области.

Abstract

Improvements in training data scale and quality have led to significant advances, yet its influence in speech recognition remains underexplored. In this paper, we present a large-scale dataset, OLMoASR-Pool, and series of models, OLMoASR, to study and develop robust zero-shot speech recognition models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio and 17M transcripts, we design text heuristic filters to remove low-quality or mistranscribed data. Our curation pipeline produces a new dataset containing 1M hours of high-quality audio-transcript pairs, which we call OLMoASR-Mix. We use OLMoASR-Mix to train the OLMoASR-Mix suite of models, ranging from 39M (tiny.en) to 1.5B (large.en) parameters. Across all model scales, OLMoASR achieves comparable average performance to OpenAI's Whisper on short and long-form speech recognition benchmarks. Notably, OLMoASR-medium.en attains a 12.8\% and 11.0\% word error rate (WER) that is on par with Whisper's largest English-only model Whisper-medium.en's 12.4\% and 10.5\% WER for short and long-form recognition respectively (at equivalent parameter count). OLMoASR-Pool, OLMoASR models, and filtering, training and evaluation code will be made publicly available to further research on robust speech processing.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Underst...

Beyond Transcription: Mechanistic Interpretability in ASR

Навигация