FunAudio-ASR Technical Report

2509.12508v1 cs.CL, cs.AI, cs.SD, eess.AS 2025-09-18
Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

Резюме на русском

#### Контекст Автоматическое распознавание речи (ASR) стало клллючевым элементом в интерактивных системах, включая смартфоны, поисковые системы и системы управления домашним электроникой. Однако существуют значительные проблемы, связанные с точностью распознавания речи в реальных условиях. Эти проблемы включают разные акценты, шумы, смешивание языков (code-switching) и необходимость реагировать на команды-триггеры (hotwords). Традиционные ASR-системы часто страдают от недостатка обучающих данных или неэффективности моделей. Недавние прогрессы в области глубокого обучения, включая модели широкого масштабирования (scaling) и интеграцию с большими языковыми моделями (LLMs), позволили значительно улучшить результаты распознавания. Несмотря на эти успехи, существуют ограничения, в частности риск халлуцинаций (неверных ответов), которые могут существенно повлиять на качество пользовательского опыта в реальных приложениях. #### Метод Мы предлагаем FunAudio-ASR, мощную глубоко интегрированную систему ASR, основанную на LLM. Основной архитектурой является модель смешанного типа, которая основывается на преобразованиях (transformers) и трансформациях (transformations) для эффективной обработки речи. Мы применяем масштабирование на уровне данных, моделей и кода, чтобы достичь высокой точности. Для решения проблем халлуцинаций используется результирующая модель с дополнительным обучением (fine-tuning) на основе различных реальных сценариев. Для улучшения работы в реальной среде, мы внедрили технологии, улучшающие потоковую обработку (streaming), устойчивость к шумам, усовершенствовали обработку многоязычности и поддержку команд-триггеров. Функциональная разработка FunAudio-ASR также включает в себя оптимизации для реального применения, такие как уменьшение задержки и эффективное использование ресурсов. #### Результаты Мы провели ряд экспериментов на различных наборах данных, включая общие тестовые наборы и реальные промышленные данные. Эксперименты показали, что FunAudio-ASR превосходит другие LLM-системы по метрикам точности распознавания в сценариях, характерных для реальных приложений. Наши результаты показали снижение халлуцинаций на 20% по сравнению с самыми близкими конкурентами. Улучшения в потоковой обработке и шумоустойчивости продемонстрировали прирост эффективности в условиях реального применения. Эксперименты были проведены с использованием как стандартных, так и корпоративных данных, чтобы продемонстрировать широту и эффективность наших решений в различных условиях. #### Значимость FunAudio-ASR может быть применен в различных областях, включая смартфо

Abstract

In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integration, and reinforcement learning to achieve state-of-the-art performance across diverse and complex speech recognition scenarios. Moreover, FunAudio-ASR is specifically optimized for practical deployment, with enhancements in streaming capability, noise robustness, code-switching, hotword customization, and satisfying other real-world application requirements. Experimental results show that while most LLM-based ASR systems achieve strong performance on open-source benchmarks, they often underperform on real industry evaluation sets. Thanks to production-oriented optimizations, FunAudio-ASR achieves SOTA performance on real application datasets, demonstrating its effectiveness and robustness in practical settings.

Ссылки и действия