📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

2025-08-13

Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.

Annotation:

Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is base...

ID: 2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec

2025-08-09

Авторы:

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

**Резюме** В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.

Annotation:

Speech codecs serve as a crucial bridge in unifying speech and text language models. Existing codec methods face several challenges in semantic encoding, such as residual paralinguistic information (e.g., timbre, emotion), insufficient semantic completeness, limited reconstruction capability, and lack of support for streaming. To address these challenges, we propose SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that disentangles semantic and paralinguistic information i...

ID: 2508.02849v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

2025-08-09

Авторы:

Seraphina Fong, Marco Matassoni, Alessio Brutti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое распознавание речи (АРР) в низкоресурсных языках является серьезной вызовом для современных исследований. Несмотря на то, что технологии глубокого обучения достигли высоких результатов в обработке речи для языков с большим объемом доступных данных, применение этих подходов к низкоресурсным языкам остается затрудненным. Основными препятствиями являются ограниченность доступных данных для обучения и отсутствие достаточного количества аннотированных ресурсов. В последнее время Large Language Models (LLMs) показали высокую эффективность в различных задачах обработки речи, включая задачи распознавания, если речь о языках с большим объемом данных. Однако для низкоресурсных языков эффективность LLMs еще не была полностью изучена. Задача адаптации LLMs для распознавания речи в условиях ограниченных данных требует новых подходов и методологий. В данной работе авторы фокусируются на исследовании Speech LLMs – моделей, которые объединяют речевые энкодеры с языковыми моделями с помощью тренируемого легковесного проектора. Особое внимание уделяется оценке объема необходимых данных для обучения и влиянию предварительного обучения на языках с большим ресурсом. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы распознавания речи в низкоресурсных языках авторы предлагают использовать фреймворк SLAM-ASR, который сочетает речевой энкодер с языковой моделью через тренируемый легковесный проектор. Этот подход позволяет эффективно интегрировать речевые и языковые модели, оптимизируя процесс распознавания речи. Архитектура SLAM-ASR включает в себя следующие компоненты: 1. **Речевой энкодер**: Используется для извлечения фич из речевых сигналов. 2. **Легковесный проектор**: Позволяет соединить речевой энкодер с языковой моделью, обеспечивая эффективную передачу информации. 3. **Языковая модель (LLM)**: Используется для понимания и обработки речи на высокоуровневом языковом уровне. Авторы также исследуют влияние предварительного обучения проектора на языках с большим ресурсом. Они используют мультилингвальные модели, такие как EuroLLM и Salamandra, в сочетании с Whisper-large-v3-turbo для оценки эффективности этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности предложенного метода. Они используют несколько публичных бенчмарков для оценки качества распознавания речи в низкоресурсных языках. В экспериментах исследуются следующие аспекты: - **Объем данных для обучения**: Авторы оценивают, какой объем данных необходим для достижения результатов, соответствующих производительности модели Whisper. - **Предварительное обучение на высокоресурсных языках**: Исследуется влияние предварительного обучения проектора на языках с большим ресурсом на качество распознавания в низкоресурсных языках. Результаты экспериментов показывают, что предварительное обучение проектора на высокоресурсных языках значительно снижает влияние дефицита данных, особенно при использовании малых объемов данных для обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данная работа имеет значительное практическое значение для развития технологий распознавания речи в низкоресурсных языках. Использование Speech LLMs с предварительным обучением на высокоресурсных языках может помочь преодолеть проблемы ограниченных данных, что делает эту технологию более доступной для широкого круга приложений. Преимущества данного подхода включают: - **Улучшение качества распознавания речи**: Эффективность метода позволяет достичь высоких результатов даже при ограниченном объеме данных. - **Применимость к мультилингвальным сценариям**: Использование мультилингвальных моделей, таких как EuroLLM и Salamandra, позволяет расширить область применения данного подхода на многоязычных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области распознавания речи в низкоресурсных языках. Использование фреймворка SLAM-ASR и предварительного обучения проектора на высокоресурсных языках показало высокую эффективность в условиях ограниченных данных. Будущие исследования могут фокусироваться на дальнейшей оптимизации архитектуры моделей, а также на разработке новых методов для улучшения качества распознавания речи в мультилингвальных сценариях. Также важно продолжать исследования в области адаптации LLMs для распознавания речи в условиях дата-скейпинга и мультилингвизма.

Annotation:

Large language models (LLMs) have demonstrated potential in handling spoken inputs for high-resource languages, reaching state-of-the-art performance in various tasks. However, their applicability is still less explored in low-resource settings. This work investigates the use of Speech LLMs for low-resource Automatic Speech Recognition using the SLAM-ASR framework, where a trainable lightweight projector connects a speech encoder and a LLM. Firstly, we assess training data volume requirements to...

ID: 2508.05149v1 eess.AS, cs.AI, cs.CL

arXiv PDF

Показано 21 - 24 из 24 записей