Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

2509.02523v1 cs.CL, cs.LG, cs.SD 2025-09-05

Авторы:

Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden

Резюме на русском

## Контекст ### Область исследования Автоматическое распознавание речи (Automatic Speech Recognition, ASR) является ключевым компонентом современных технологий, обеспечивающих удобный доступ к информации. Однако существующие решения часто ориентированы на широко поддерживаемые языки, оставляя подзападных языков без качественных систем ASR. Это ограничивает возможности использования ASR для этих языков в устройствах Edge (например, мобильных устройствах). ### Мотивация Предлагаемые системы ASR часто основываются на многоязычных моделях, использующих методы кросс-лингвистического обучения для извлечения схожих фонетических оттенков. Тем не менее, для небольших моделей, ограниченных по размеру, такие подходы могут оказаться неэффективными. Это влечет за собой потребность в разработке специализированных моделей, оптимизированных для отдельных языков. ## Метод ### Методология Базовая модель — сеть на основе конфигурации T-Tiny (27 миллионов параметров). Модель обучалась с использованием следующих типов данных: 1. **Human-labeled data**: высококачественные звуковые сэмплы с прямыми транскриптами. 2. **Pseudo-labeled data**: автоматически сгенерированные транскрипты с помощью моделей ASR на более широко распространенных языках. 3. **Synthetic data**: созданные синтетические речи на основе генеративных моделей. Эта стратегия обучения позволила максимально эффективно использовать ресурсы для оптимизации моделей под конкретные языки. ### Технические решения - **Data Augmentation**: Использование генерируемых данных для увеличения разнообразия обучающих выборок. - **Knowledge Distillation**: Обучение модели на основе других моделей, позволивших достичь высокой точности с меньшим размером. ## Результаты ### Эксперименты Набор данных включал говорящие тесты на языках: арабский, китайский, иврит, японский, корейский, украинский и вьетнамский. Метрики оценки: Word Error Rate (WER) и Character Error Rate (CER). ### Результаты - **Сравнение с Whisper**: Модели Flavors of Moonshine достигли 48% более низкого WER по сравнению с Whisper Tiny. - **Сравнение с более крупными моделями**: В некоторых случаях даже превосходили Whisper Medium (28x больше по размеру). - **Поддержка недоступных ранее языков**: Модели позволили достичь точности, ранее не достижимой для этих языков. ## Значимость ### Области применения - **Edge Devices**: Например, смартфоны, смарт-спикеры, транскрибирование на устройствах на угловых кустах. - **Развитие языков**: Обеспечение точного ASR для языков, которые ранее были затруднены из-за отсутствия качественных моделей. ### Преимущества - **

Abstract

We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and synthetic data yields substantially superior performance. On average, our models achieve error rates 48% lower than the comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small model, and in most cases match or outperform the 28x larger Whisper Medium model. These results advance the state of the art for models of this size, enabling accurate on-device ASR for languages that previously had limited support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and Vietnamese Moonshine models under a permissive open-source license.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ASR Error Correction in Low-Resource Burmese with Alignment-Enhanced Transformer...

Large Language Model Data Generation for Enhanced Intent Recognition in German S...

Навигация