FunAudio-ASR Technical Report

2509.12508v2 cs.CL, cs.AI, cs.SD, eess.AS 2025-09-19
Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

Резюме на русском

#################### ## Контекст #################### Фундаментальные инновации в области звукозаписи и обработки речи в последние годы продолжают преобразовывать сферу устных интеракций. Одним из ключевых направлений является развитие систем автоматического распознавания речи (ASR). Текущие системы ASR сталкиваются с рядом технических и практических вызовов, включая неточности в распознавании, ограниченную устойчивость к шумам и сложности с обработкой нестандартных речевых сценариев. Эти проблемы возникают благодаря ограниченности данных, ограничению моделей и нехватке эффективных методов для интеграции с большими языковыми моделями (LLMs). Эти факторы приводят к снижению качества распознавания в реальных сценариях. Мы предлагаем FunAudio-ASR, систему ASR, которая развивает существующие парадигмы, включая масштабирование данных, развитие моделей и интеграцию с LLMs, для избавления от этих проблем и улучшения надежности ASR в прикладных задачах. #################### ## Метод #################### FunAudio-ASR основывается на трех основных компонентах: использование больших наборов данных, развитие моделей на основе LLMs и интеграция с поддержкой развития производительности с помощью оптимизации под реальные сценарии. Мы используем масштабированные вычисления и методы представления моделей для обработки звуковых сигналов с высокой точностью. Для улучшения устойчивости к шумам и кодам-переключения мы разработали специальные алгоритмы. Также, мы используем технологии фонового обучения и получения результатов с повышенной скоростью. Эта система разработана в соответствии с особенностями реальных приложений и интегрирует современные решения для обработки речи, чтобы обеспечить высокую производительность в различных условиях. #################### ## Результаты #################### Мы провели ряд экспериментов для оценки производительности FunAudio-ASR в различных сценариях. Эти эксперименты включили сценарии с многоязычным распознаванием, сценарии с шумовыми условиями и сценарии с кодами-переключения. Мы применяли наборы данных, включая официальные открытые индикаторы, а также наши собственные реальные данные. FunAudio-ASR показал стабильно высокую точность в распознавании в этих сценариях. На открытых наборах данных, например, он демонстрирует среднее соотношение ошибок в тексте, аналогичное самым передовым системам. Однако, главный преимущество FunAudio-ASR заключается в сильном показателе в реальных сценариях, где многие другие системы LLM-ASR показывают снижение производительности. Это подтверждает эффективность нашей системы в реальных условиях. #################### ## Значимость #################### FunAudio-ASR может быть применено в различных практических сферах, вкл

Abstract

In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integration, and reinforcement learning to achieve state-of-the-art performance across diverse and complex speech recognition scenarios. Moreover, FunAudio-ASR is specifically optimized for practical deployment, with enhancements in streaming capability, noise robustness, code-switching, hotword customization, and satisfying other real-world application requirements. Experimental results show that while most LLM-based ASR systems achieve strong performance on open-source benchmarks, they often underperform on real industry evaluation sets. Thanks to production-oriented optimizations, FunAudio-ASR achieves SOTA performance on real application datasets, demonstrating its effectiveness and robustness in practical settings.

Ссылки и действия