Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
2509.02523v1
cs.CL, cs.LG, cs.SD
2025-09-05
Авторы:
Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
Резюме на русском
## Контекст
### Область исследования
Автоматическое распознавание речи (Automatic Speech Recognition, ASR) является ключевым компонентом современных технологий, обеспечивающих удобный доступ к информации. Однако существующие решения часто ориентированы на широко поддерживаемые языки, оставляя подзападных языков без качественных систем ASR. Это ограничивает возможности использования ASR для этих языков в устройствах Edge (например, мобильных устройствах).
### Мотивация
Предлагаемые системы ASR часто основываются на многоязычных моделях, использующих методы кросс-лингвистического обучения для извлечения схожих фонетических оттенков. Тем не менее, для небольших моделей, ограниченных по размеру, такие подходы могут оказаться неэффективными. Это влечет за собой потребность в разработке специализированных моделей, оптимизированных для отдельных языков.
## Метод
### Методология
Базовая модель — сеть на основе конфигурации T-Tiny (27 миллионов параметров). Модель обучалась с использованием следующих типов данных:
1. **Human-labeled data**: высококачественные звуковые сэмплы с прямыми транскриптами.
2. **Pseudo-labeled data**: автоматически сгенерированные транскрипты с помощью моделей ASR на более широко распространенных языках.
3. **Synthetic data**: созданные синтетические речи на основе генеративных моделей.
Эта стратегия обучения позволила максимально эффективно использовать ресурсы для оптимизации моделей под конкретные языки.
### Технические решения
- **Data Augmentation**: Использование генерируемых данных для увеличения разнообразия обучающих выборок.
- **Knowledge Distillation**: Обучение модели на основе других моделей, позволивших достичь высокой точности с меньшим размером.
## Результаты
### Эксперименты
Набор данных включал говорящие тесты на языках: арабский, китайский, иврит, японский, корейский, украинский и вьетнамский. Метрики оценки: Word Error Rate (WER) и Character Error Rate (CER).
### Результаты
- **Сравнение с Whisper**: Модели Flavors of Moonshine достигли 48% более низкого WER по сравнению с Whisper Tiny.
- **Сравнение с более крупными моделями**: В некоторых случаях даже превосходили Whisper Medium (28x больше по размеру).
- **Поддержка недоступных ранее языков**: Модели позволили достичь точности, ранее не достижимой для этих языков.
## Значимость
### Области применения
- **Edge Devices**: Например, смартфоны, смарт-спикеры, транскрибирование на устройствах на угловых кустах.
- **Развитие языков**: Обеспечение точного ASR для языков, которые ранее были затруднены из-за отсутствия качественных моделей.
### Преимущества
- **
Abstract
We present the Flavors of Moonshine, a suite of tiny automatic speech
recognition (ASR) models specialized for a range of underrepresented languages.
Prevailing wisdom suggests that multilingual ASR models outperform monolingual
counterparts by exploiting cross-lingual phonetic similarities. We challenge
this assumption, showing that for sufficiently small models (27M parameters),
training monolingual systems on a carefully balanced mix of high-quality
human-labeled, pseudo-labeled, and synthetic data yields substantially superior
performance. On average, our models achieve error rates 48% lower than the
comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small
model, and in most cases match or outperform the 28x larger Whisper Medium
model. These results advance the state of the art for models of this size,
enabling accurate on-device ASR for languages that previously had limited
support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and
Vietnamese Moonshine models under a permissive open-source license.
Ссылки и действия
Дополнительные ресурсы: