📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ASR Error Correction in Low-Resource Burmese with Alignment-Enhanced Transformers using Phonetic Features

2025-11-27

Авторы:

Ye Bhone Lin, Thura Aung, Ye Kyaw Thu, Thazin Myint Oo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper investigates sequence-to-sequence Transformer models for automatic speech recognition (ASR) error correction in low-resource Burmese, focusing on different feature integration strategies including IPA and alignment information. To our knowledge, this is the first study addressing ASR error correction specifically for Burmese. We evaluate five ASR backbones and show that our ASR Error Correction (AEC) approaches consistently improve word- and character-level accuracy over baseline outp...

ID: 2511.21088v1 cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Adapting Language Balance in Code-Switching Speech

2025-10-23

Авторы:

Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite achieving impressive results on standard benchmarks, large foundational models still struggle against code-switching test cases. When data scarcity cannot be used as the usual justification for poor performance, the reason may lie in the infrequent occurrence of code-switched moments, where the embedding of the second language appears subtly. Instead of expecting the models to learn this infrequency on their own, it might be beneficial to provide the training process with labels. Evaluat...

ID: 2510.18724v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Bayesian Low-Rank Factorization for Robust Model Adaptation

2025-10-23

Авторы:

Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large speech foundation models achieve strong performance across many domains, but they often require adaptation to handle local needs such as code-switching, where speakers mix languages within the same utterance. Direct fine-tuning of these models risks overfitting to the target domain and overwriting the broad capabilities of the base model. To address this challenge, we explore Bayesian factorized adapters for speech foundation models, which place priors near zero to achieve sparser adaptati...

ID: 2510.18723v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

2025-10-02

Авторы:

Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing,...

ID: 2509.26329v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech

2025-09-23

Авторы:

Yuyu Wang, Wuyue Xia, Huaxiu Yao, Jingping Nie

## Контекст Область исследования связана с анализом пост-тренировочной речи, которая содержит богатые физиологические и языковые сигналы. Эти сигналы отражают различные аспекты физиологического состояния человека, включая темп восстановления, функцию легких и уровень утомления. Одним из ключевых аспектов является выявление и различение различных типов пауз в речи - семантических, дыхательных и комбинированных. Эти паузы могут свидетельствовать о различных физиологических процессах и их отклонениях. Несмотря на важность этого вопроса, существующие работы на этой теме остаются ограниченными, особенно в контексте использования современных методов анализа данных. Мотивация для этого исследования основывается на необходимости создания более точных и надежных систем, которые могут анализировать пост-тренировочную речь и давать быстрые выводы о состоянии здоровья человека. ## Метод Для решения поставленных задач использована систематическая методология, включающая несколько этапов. В качестве исходных данных использовался специально созданный датасет, содержащий синхронизированные аудио- и респираторные сигналы. Для распознавания пауз использовались модели глубокого обучения, такие как GRU, 1D CNN-LSTM, AlexNet и VGG16, а также различные акустические признаки, такие как MFCC и MFB. Также были рассмотрены представления слоёв Wav2Vec2. Методы включили как классификационные, так и регрессионные подходы. Для лучшей точности и объёмности выявления различных типов пауз была разработана двухступенчатая модель - сначала происходит детекция, затем классификация. ## Результаты В ходе экспериментов было получено несколько важных результатов. Для распознавания семантических пауз была достигнута точность до 89%. Для дыхательных пауз - до 55%, а для комбинированных - до 86%. Общая точность распознавания пауз составила 73%. Для классификации уровня утомления после тренировки была достигнута точность 90.5%. Эти результаты превышают показатели предыдущих исследований, что демонстрирует эффективность предложенной модели. ## Значимость Предложенная модель может применяться в различных областях, включая медицину, спорт, исследования физиологических процессов. Она обладает высокой точностью и может быть использована для мониторинга здоровья и оценки уровня утомления после физической нагрузки. Наиболее значимыми преимуществами являются точность распознавания различных типов пауз и возможность интеграции с другими системами мониторинга здоровья. Это может повлиять на развитие

Annotation:

Post-exercise speech contains rich physiological and linguistic cues, often marked by semantic pauses, breathing pauses, and combined breathing-semantic pauses. Detecting these events enables assessment of recovery rate, lung function, and exertion-related abnormalities. However, existing works on identifying and distinguishing different types of pauses in this context are limited. In this work, building on a recently released dataset with synchronized audio and respiration signals, we provide s...

ID: 2509.15473v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Unified Learnable 2D Convolutional Feature Extraction for ASR

2025-09-16

Авторы:

Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney

#### Контекст Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного языка, стремящимся преодолеть барьеры между людьми и машинами. Существующие системы ASR часто полагаются на традиционные методы для извлечения акустических признаков, такие как Mel-frequency cepstral coefficients (MFCCs) или linear prediction coefficients (LPCs). Однако эти методы имеют ограничения в обработке сложных акустических сценариев. Нейронные сети предлагают возможность извлечения более высокого качества признаков, оптимизированных для конкретных задач ASR. Несмотря на это, многие из них остаются привязаны к классическим моделям, что существенно снижает потенциал универсальности и гибкости. Наше исследование рассчитано на развитие более универсальной архитектуры для извлечения признаков, которая бы была эффективной для различных ASR-систем. #### Метод Для решения проблемы стандартизированных методов извлечения признаков мы предлагаем новую архитектуру, сочетающую 2D-конволюционные сети с новыми адаптивными функциями для извлечения признаков. Методология основывается на двух основных предпосылках: 1) 2D-конволюционные слои позволяют извлекать признаки, учитывающие зависимости между звуковыми окружениями в пространстве и времени; 2) Универсальная модель не должна привязываться к конкретным предварительно обученным моделям или классическим методам. Мы предлагаем архитектуру с несколькими уровнями, которая может быть применена как в предобученных, так и в учебных сценариях. В нашей модели используется эффективный фреймворк для извлечения признаков, который учитывает объем вычислительных ресурсов, доступных в конкретных ситуациях. #### Результаты Для оценки эффективности предлагаемой модели мы провели серию экспериментов на различных данных ASR. Эти данные включали записи с высоким уровнем шума, с разным акцентом и разным языком. Мы сравнили результаты наших моделей с традиционными методами, такими как MFCCs и LPCs, а также с более современными нейронными моделями, такими как Wav2Vec и HuBERT. Наши результаты показали, что 2D-конволюционная модель показывает почти одинаковое качество признаков по сравнению с предварительно обученными моделями, при этом требуя меньших вычислительных ресурсов. Особое внимание уделялось влиянию универсальной архитектуры на уменьшение пропускаемой информации и повышение стабильности системы ASR в разных условиях. #### Значимость Предлагаемая модель может быть применена в разных сферах ASR, включая системы, работающие в реальном времени, а также в мобильных приложениях, где ограничены вычислительные ресур

Annotation:

Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches...

ID: 2509.10031v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Error Analysis in a Modular Meeting Transcription System

2025-09-16

Авторы:

Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

## Контекст Meeting transcription является областью высокой актуальности и существенного прогресса в последние годы. Однако некоторые задачи в ней до сих пор остаются неразрешимыми. Одним из таких вызовов является анализ ошибок в модульных системах транскрибирования, которые могут влиять на качество транскрибирования. Исследователи стремятся к пониманию этих проблем, чтобы оптимизировать системы и минимизировать ошибки. Целью данного исследования является расширение фреймворка для анализа темпоральной локальности в системах сепарации речи и его применение для оценки ошибок в модульных системах транскрибирования. Ранее, анализ ошибок ограничивался одной точке времени, но в данной работе введена методика, которая учитывает темпоральную локальность, что позволяет более точно оценить ошибки. ## Метод Для анализа ошибок в модульных системах транскрибирования разработана новая методика, основанная на расширенной методологии для анализа темпоральной локальности. Эта методика применяется к системе, которая использует модульную архитектуру, включающую модули для сепарации речи, звуковой активности и распознавания речи. Методика включает в себя сравнение различных сегментаций, в том числе идеальной (оркестрованной) сегментации, легковесной сегментации на основе энергии и более сложными методами диаризации. Эксперименты проводились на данных LibriCSS, которые являются открытым ресурсом для тестирования систем транскрибирования. ## Результаты Результаты показывают, что такие методы диаризации, как x-vector и diarization с N-лучами, существенно сокращают разрыв с идеальной сегментацией по сравнению с простой энергий-based VAD. Тем не менее, остаётся заметный разрыв в третьей части результатов. Изучение этого разрыва показало, что основные факторы включают неточности в активности речи, синхронизацию между модулями и недостаточную точность распознавания речи в условиях высокого шума. Эти факторы определяют остаточные ошибки в системе. Более того, проведенный анализ позволил выявить, что прогресс в сепарации речи и diarization имеет существенное влияние на ошибки, но не устраняет их полностью. ## Значимость Результаты этой работы имеют большое значение для развития модульных систем транскрибирования. Они демонстрируют, что улучшение модулей сепарации речи и диаризации может привести к значительным улучшениям в качестве транскрибирования. Кроме того, работа показывает, что улучшение точности распознавания речи в условиях высокого шума и уменьшение неточностей в синхронизации модулей могут существенно уменьшить остаточные ошибки. В будущем, эти находки могут быть применены для со

Annotation:

Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much a...

ID: 2509.10143v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

2025-09-05

Авторы:

Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden

## Контекст ### Область исследования Автоматическое распознавание речи (Automatic Speech Recognition, ASR) является ключевым компонентом современных технологий, обеспечивающих удобный доступ к информации. Однако существующие решения часто ориентированы на широко поддерживаемые языки, оставляя подзападных языков без качественных систем ASR. Это ограничивает возможности использования ASR для этих языков в устройствах Edge (например, мобильных устройствах). ### Мотивация Предлагаемые системы ASR часто основываются на многоязычных моделях, использующих методы кросс-лингвистического обучения для извлечения схожих фонетических оттенков. Тем не менее, для небольших моделей, ограниченных по размеру, такие подходы могут оказаться неэффективными. Это влечет за собой потребность в разработке специализированных моделей, оптимизированных для отдельных языков. ## Метод ### Методология Базовая модель — сеть на основе конфигурации T-Tiny (27 миллионов параметров). Модель обучалась с использованием следующих типов данных: 1. **Human-labeled data**: высококачественные звуковые сэмплы с прямыми транскриптами. 2. **Pseudo-labeled data**: автоматически сгенерированные транскрипты с помощью моделей ASR на более широко распространенных языках. 3. **Synthetic data**: созданные синтетические речи на основе генеративных моделей. Эта стратегия обучения позволила максимально эффективно использовать ресурсы для оптимизации моделей под конкретные языки. ### Технические решения - **Data Augmentation**: Использование генерируемых данных для увеличения разнообразия обучающих выборок. - **Knowledge Distillation**: Обучение модели на основе других моделей, позволивших достичь высокой точности с меньшим размером. ## Результаты ### Эксперименты Набор данных включал говорящие тесты на языках: арабский, китайский, иврит, японский, корейский, украинский и вьетнамский. Метрики оценки: Word Error Rate (WER) и Character Error Rate (CER). ### Результаты - **Сравнение с Whisper**: Модели Flavors of Moonshine достигли 48% более низкого WER по сравнению с Whisper Tiny. - **Сравнение с более крупными моделями**: В некоторых случаях даже превосходили Whisper Medium (28x больше по размеру). - **Поддержка недоступных ранее языков**: Модели позволили достичь точности, ранее не достижимой для этих языков. ## Значимость ### Области применения - **Edge Devices**: Например, смартфоны, смарт-спикеры, транскрибирование на устройствах на угловых кустах. - **Развитие языков**: Обеспечение точного ASR для языков, которые ранее были затруднены из-за отсутствия качественных моделей. ### Преимущества - **

Annotation:

We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and syntheti...

ID: 2509.02523v1 cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

2025-08-27

Авторы:

Alessio Falai, Ziyao Zhang, Akos Gangoly

#### Контекст Текстовое-к-речевое преобразование (Text-to-Speech, TTS) является важной областью искусственного интеллекта, которая обеспечивает синтез речи на основе текста. Одним из главных вызовов является синтез речи в неизвестных языках или с неизвестными речевыми идентичностями. Этот процесс важен для расширения приложений TTS, таких как локализация и доступность. Несмотря на прогресс в масштабируемых моделях, лёгкие модели TTS, оптимизированные для ресурсно-ограниченных устройств, становятся все более востребоваными. В этой работе мы изучаем добавление адаптеров к лёгким моделям TTS для решения проблемы неизвестных речевых и языковых идентичностей, чтобы достичь эффективного и точного синтеза голоса. #### Метод Мы используем адаптеровую архитектуру для улучшения лёгких моделей TTS. Адаптеры — небольшие модули, добавляемые к существующим моделям, чтобы научить их обучаться на новых речевых и языковых идентичностях без переобучения основной модели. Мы сравниваем две задачи: неизвестный голос и неизвестный язык. Для измерения качества синтеза мы используем традиционные метрики, такие как MOS (Mean Opinion Score), а также разрабатываем новую метрику, основанную на измерении акцента, чтобы оценить натуральность синтезированной речи в новом языке. Модель тренируется на существующих данных речи, а затем модифицируется с помощью адаптеров для обучения новых речевых и языковых признаков. #### Результаты Мы проводим эксперименты на широкой палитре речевых и языковых признаков, включая новые речевые идентичности и языки, для которых не было доступных никаких записей. Мы показываем, что адаптеры эффективно учитывают новую информацию о голосе и языке, улучшая качество синтеза. Благодаря нашей метрике акцента, мы также показываем, что синтезированная речь звучит натурально в новой среде. Мы также изучаем различные конфигурации адаптеров, такие как размер, место размещения и количество голосов, и показываем, что эти факторы влияют на качество синтеза. #### Значимость Наши результаты демонстрируют широкое применение адаптеров в лёгких текстово-речевых системах. Они могут быть использованы для синтеза речи на новых языках и с неизвестными речевыми идентичностями без необходимости обучать модель с нуля. Это значительно увеличивает производительность и дешевизну при развёртывании TTS в новых регионах и языках. Кроме того, мы показываем, как адаптеры могут быть настроены для минимизации «забывания» исходной знания модели, что является ключевым вызовом в машинном обучении. Наша работа такж

Annotation:

In this paper we investigate cross-lingual Text-To-Speech (TTS) synthesis through the lens of adapters, in the context of lightweight TTS systems. In particular, we compare the tasks of unseen speaker and language adaptation with the goal of synthesising a target voice in a target language, in which the target voice has no recordings therein. Results from objective evaluations demonstrate the effectiveness of adapters in learning language-specific and speaker-specific information, allowing pre-t...

ID: 2508.18006v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 CarelessWhisper: Turning Whisper into a Causal Streaming Model

2025-08-19

Авторы:

Tomer Krichli, Bhiksha Raj, Joseph Keshet

#### Контекст **Automatic Speech Recognition (ASR)** — одна из наиболее активно развивающихся областей искусственного интеллекта, нацеленная на распознавание и преобразование речи в текст. Существующие модели, такие как **OpenAI Whisper** и **NVIDIA Canary**, достигли отличных результатов в области офлайн-транскрипции. Однако эти модели не предназначены для работы в режиме streaming (реального времени) из-за архитектурных ограничений и методологии тренировки. Это приводит к высокому латенту и неэффективному использованию ресурсов. Латентность становится критичной в сценариях, где временная задержка критична (например, в системах управления железнодорожными проектами). В нашем исследовании мы адресовали эту проблему, предлагая метод по адаптации существующих моделей к требованиям реального времени, обеспечивая локальную оптимальность и низкую сложность. #### Метод Мы предлагаем преобразовать **transformer encoder-decoder** в **causal streaming model** (модель, не ориентирующуюся на будущий контекст). Это достигается путем **fine-tuning** исходного модели, включая как encoder, так и decoder. Используется **Low-Rank Adaptation (LoRA)** для эффективного обучения, а также **weakly aligned dataset** для улучшения выравнивания времени. Мы предложили новый **inference mechanism**, который использует fine-tuned model для **greedy decoding** и **beam search decoding**, обеспечивая локально оптимальные решения. Эта новая архитектура позволяет модели работать в режиме с низкой задержкой, не теряя качества распознавания. Кроме того, наш процесс тренировки улучшает выравнивание времени, что позволяет создавать точные **word-level timestamps**. #### Результаты Мы провели эксперименты с разными **chunk sizes** (менее 300 мс) и сравнили нашу модель с нетрейненговыми потоковыми моделями. Результаты показали, что **fine-tuned model** превосходит уже существующие потоковые модели, при этом используя значительно меньшую сложность. Мы также показали, что наш метод выравнивания времени эффективен и позволяет легко извлекать **word-level timestamps**, которые являются важным ресурсом для пользователей в таких приложениях, как **railway management systems**. Наши **fine-tuned models** скачаны и могут быть использованы для дальнейших исследований и развития в области streaming ASR. #### Значимость Наша работа открывает новые возможности для использования моделей **ASR** в сценариях, где реальное время и низкая задержка критичны, таких как **railway management systems**, **real-time speech transcription** для динамических сред. Мы также доказали, что можно эффективно адаптировать имеющиеся модели, не требуя полного переучивания, что экономит ресурсы. Наш подход имеет **broad applications** в различных областях, таких как **real-time communication systems**, **voice assistants** и **accessibility tools**. Мы положили фундамент для дальнейших исследований в области **causal streaming models** в ASR. #### Выводы Мы успешно

Annotation:

Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model that is careless about future context. We present an an...

ID: 2508.12301v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

Показано 1 - 10 из 18 записей