TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD 2025-08-13
Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

Резюме на русском

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.

Abstract

Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is based on a GPU-accelerated word boosting tree, which enables it to be used in shallow fusion mode for greedy and beam search decoding without noticeable speed degradation, even with a vast number of key phrases (up to 20K items). The obtained results showed high efficiency of the proposed method, surpassing the considered open-source context-biasing approaches in accuracy and decoding speed. Our context-biasing framework is open-sourced as a part of the NeMo toolkit.

Ссылки и действия