FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities

2508.07315v2 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD 2025-08-14
Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

Резюме на русском

## Контекст В последние годы значительный прогресс в области распознавания речи был достигнут благодаря развитию моделей Connectionist Temporal Classification (CTC). Однако стандартные средства для beam decoding, используемые для улучшения качества распознавания, часто ограничены по производительности, последовательны и требуют значительных ресурсов CPU. Это затрудняет эффективное использование современных GPU, которые могли бы значительно ускорить процесс. Далее, существующие решения либо требуют сложной настройки, либо не поддерживают расширенные возможности, такие как интеграция грамматических моделей или фаззинг фраз. Изложенная проблема мотивирует разработку производительного, расширяемого и понятного для пользователя средства для GPU-powered beam decoding. ## Метод FlexCTC — это опен-сорсный инструмент, разработанный на Python и PyTorch, предназначенный для решения проблем скорости и производительности в beam decoding для CTC-моделей. Архитектура FlexCTC основана на полностью батченной GPU-реализации, которая устраняет задержки синхронизации между CPU и GPU, а также использует CUDA Graphs для минимизации затрат на запуск курсоров. Для добавления расширенных возможностей, таких как фаззинг фраз и GPU-powered N-gram language model fusion, разработчики внедрили универсальный интерфейс для подключения дополнительных модулей. Это позволяет легко адаптировать систему под конкретные задачи и модели. ## Результаты На тестах с реальными данными FlexCTC показал значительные выигрыши в производительности по сравнению с существующими решениями. Тесты показали, что возможности GPU-based decoding позволяют обрабатывать большие объемы данных за меньшее время, что делает FlexCTC привлекательным для использования в production-ready системах. Также были проведены эксперименты с интеграцией грамматических моделей и фаззинга фраз, которые подтвердили повышение точности распознавания в сценариях сложности. ## Значимость FlexCTC широко может применяться в сферах распознавания речи, таких как транскрибирование аудио, поисковые системы и интерактивные системы управления. Его преимущества включают высокую производительность, полностью GPU-powered решение, расширенные возможности для контекстуализации и простоту использования благодаря интуитивно понятному интерфейсу. Эти особенности делают FlexCTC полезным инструментом как для научных исследований, так и для коммерческого применения. ## Выводы FlexCTC — это развивающееся и мощное решение для beam decoding в CTC-моделях. Его GPU-powered инфраструктура, простота использования и расширенные возможности контекстуализации делают его привлекательным для разработчиков и исследователей. Будущие работы будут направлены на улучшение производительности, добавление поддержки дополнительных моделей и

Abstract

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolkit features a high-performance, fully batched GPU implementation with eliminated CPU-GPU synchronization and minimized kernel launch overhead via CUDA Graphs. It also supports advanced contextualization techniques, including GPU-powered N-gram language model fusion and phrase-level boosting. These features enable accurate and efficient decoding, making them suitable for both research and production use.

Ссылки и действия

Связанные статьи

FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах...

2025-08-13