📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets

2025-11-19

Авторы:

Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Tekla Etelka Gráczi, Anna Kohári, Katalin Mády

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The advancement of automatic speech recognition (ASR) has been largely enhanced by extensive datasets in high-resource languages, while languages such as Hungarian remain underrepresented due to limited spontaneous and conversational corpora. To address this gap, we introduce two new datasets -- BEA-Large and BEA-Dialogue -- constructed from the previously unprocessed portions of the Hungarian speech corpus named BEA. BEA-Large extends BEA-Base with 255 hours of spontaneous speech from 433 speak...

ID: 2511.13529v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment

2025-10-22

Авторы:

Fu-An Chao, Bi-Cheng Yan, Berlin Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we explore the untapped potential of Whisper, a well-established automatic speech recognition (ASR) foundation model, in the context of L2 spoken language assessment (SLA). Unlike prior studies that extrinsically analyze transcriptions produced by Whisper, our approach goes a step further to probe its latent capabilities by extracting acoustic and linguistic features from hidden representations. With only a lightweight classifier being trained on top of Whisper's intermediate and ...

ID: 2510.16387v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Extending Audio Context for Long-Form Understanding in Large Audio-Language Models

2025-10-21

Авторы:

Yuatyong Chaichana, Pittawat Taveekitworachai, Warit Sirichotedumrong, Potsawee Manakul, Kunat Pipatanakul

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Audio-Language Models (LALMs) are often constrained by short audio context windows, even when their text backbones support long contexts, limiting long-form audio understanding. Prior work has introduced context-extension methods (e.g. YaRN) on unimodal LLMs, yet their application to LALMs remains unexplored. First, building on RoPE-based context extension, we introduce Partial YaRN, a training-free, audio-only extension method that modifies only audio token positions, leaving text positio...

ID: 2510.15231v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation

2025-10-10

Авторы:

Vaibhav Srivastav, Steven Zheng, Eric Bezzam, Eustache Le Bihan, Nithin Koluguri, Piotr Żelasko, Somshubra Majumdar, Adel Moumen, Sanchit Gandhi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite rapid progress, ASR evaluation remains saturated with short-form English, and efficiency is rarely reported. We present the Open ASR Leaderboard, a fully reproducible benchmark and interactive leaderboard comparing 60+ open-source and proprietary systems across 11 datasets, including dedicated multilingual and long-form tracks. We standardize text normalization and report both word error rate (WER) and inverse real-time factor (RTFx), enabling fair accuracy-efficiency comparisons. For En...

ID: 2510.06961v2 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology

2025-09-24

Авторы:

Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber

#### Контекст Согласно данным США, более 3,4 миллиона детей страдают от языковых нарушений, требующих клинического вмешательства. Однако число лиц с квалификацией специалиста по языковым нарушениям (SLPs) составляет всего 20 раз меньше, чем число детей, что вызывает значительную проблему в оказании медицинской помощи и вызывает необходимость в технологической поддержке. Многомодальные языковые модели (MLMs) показали себя как перспективные инструменты для поддержки SLPs, но их применение в клинических условиях остается недостаточно изученным. Основным мотивом исследования является заполнение этой лакуны, чтобы определить потенциал и ограничения этих моделей в этой области. #### Метод Мы сотрудничали с клиническими специалистами для определения реальных ситуаций, в которых могут применяться MLMs в области языковых нарушений. На основе этого, мы разработали первую полную бенчмарк-сеть для оценки MLMs, включающую 5 основных классов задач с 1000 мануально аннотированными данными для каждого класса. Мы продумали тесты на жесткость и чувствительность, включая условия с фоновым шумом, разными половыми и акцентными особенностями. Мы проверили 15 лидирующих MLMs, которые определяются в соответствии с тестами, и оценили их взаимосвязь с различными условиями. #### Результаты Наши эксперименты показали, что ни одна модель не показала стабильного лидера во всех задачах. Мы обнаружили четкие диспаритеты, в частности, модели показали лучшую точность для мужских речевых звуков. Мы также обнаружили, что chain-of-thought prompting может ухудшать точность классификации в случаях, когда параметры языковой модели требуют высокой точности и узких границ между классами. Мы также проверили технику файн-тюнинга MLMs на определенном клиническом видео, получив улучшения до 30% по сравнению с базовыми моделями. Эти результаты подчеркивают как возможности, так и ограничения текущих MLMs в сфере языковых нарушений. #### Значимость Наши полученные методики и результаты могут быть применены в широкой сфере языковых нарушений, включая тестирование и оптимизацию новых технологий. Наша работа обозначает значительные преимущества технологической поддержки в данной области, которая может повысить производительность SLPs и улучшить доступ к значительной поддержке для детей. Мы также выделили возможности для дальнейшего исследования, в том числе изучение улучшений моделей и их применения в широких клинических условиях. #### Выводы Наша работа ставится в значительное продолжение исследований в области многомодальных языковых моделей для клинических це

Annotation:

According to the U.S. National Institutes of Health, more than 3.4 million children experience speech disorders that require clinical intervention. The number of speech-language pathologists (SLPs) is roughly 20 times fewer than the number of affected children, highlighting a significant gap in children's care and a pressing need for technological support that improves the productivity of SLPs. State-of-the-art multimodal language models (MLMs) show promise for supporting SLPs, but their use rem...

ID: 2509.16765v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-19

Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

#################### ## Контекст #################### Фундаментальные инновации в области звукозаписи и обработки речи в последние годы продолжают преобразовывать сферу устных интеракций. Одним из ключевых направлений является развитие систем автоматического распознавания речи (ASR). Текущие системы ASR сталкиваются с рядом технических и практических вызовов, включая неточности в распознавании, ограниченную устойчивость к шумам и сложности с обработкой нестандартных речевых сценариев. Эти проблемы возникают благодаря ограниченности данных, ограничению моделей и нехватке эффективных методов для интеграции с большими языковыми моделями (LLMs). Эти факторы приводят к снижению качества распознавания в реальных сценариях. Мы предлагаем FunAudio-ASR, систему ASR, которая развивает существующие парадигмы, включая масштабирование данных, развитие моделей и интеграцию с LLMs, для избавления от этих проблем и улучшения надежности ASR в прикладных задачах. #################### ## Метод #################### FunAudio-ASR основывается на трех основных компонентах: использование больших наборов данных, развитие моделей на основе LLMs и интеграция с поддержкой развития производительности с помощью оптимизации под реальные сценарии. Мы используем масштабированные вычисления и методы представления моделей для обработки звуковых сигналов с высокой точностью. Для улучшения устойчивости к шумам и кодам-переключения мы разработали специальные алгоритмы. Также, мы используем технологии фонового обучения и получения результатов с повышенной скоростью. Эта система разработана в соответствии с особенностями реальных приложений и интегрирует современные решения для обработки речи, чтобы обеспечить высокую производительность в различных условиях. #################### ## Результаты #################### Мы провели ряд экспериментов для оценки производительности FunAudio-ASR в различных сценариях. Эти эксперименты включили сценарии с многоязычным распознаванием, сценарии с шумовыми условиями и сценарии с кодами-переключения. Мы применяли наборы данных, включая официальные открытые индикаторы, а также наши собственные реальные данные. FunAudio-ASR показал стабильно высокую точность в распознавании в этих сценариях. На открытых наборах данных, например, он демонстрирует среднее соотношение ошибок в тексте, аналогичное самым передовым системам. Однако, главный преимущество FunAudio-ASR заключается в сильном показателе в реальных сценариях, где многие другие системы LLM-ASR показывают снижение производительности. Это подтверждает эффективность нашей системы в реальных условиях. #################### ## Значимость #################### FunAudio-ASR может быть применено в различных практических сферах, вкл

Annotation:

In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integra...

ID: 2509.12508v2 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-18

Авторы:

#### Контекст Автоматическое распознавание речи (ASR) стало клллючевым элементом в интерактивных системах, включая смартфоны, поисковые системы и системы управления домашним электроникой. Однако существуют значительные проблемы, связанные с точностью распознавания речи в реальных условиях. Эти проблемы включают разные акценты, шумы, смешивание языков (code-switching) и необходимость реагировать на команды-триггеры (hotwords). Традиционные ASR-системы часто страдают от недостатка обучающих данных или неэффективности моделей. Недавние прогрессы в области глубокого обучения, включая модели широкого масштабирования (scaling) и интеграцию с большими языковыми моделями (LLMs), позволили значительно улучшить результаты распознавания. Несмотря на эти успехи, существуют ограничения, в частности риск халлуцинаций (неверных ответов), которые могут существенно повлиять на качество пользовательского опыта в реальных приложениях. #### Метод Мы предлагаем FunAudio-ASR, мощную глубоко интегрированную систему ASR, основанную на LLM. Основной архитектурой является модель смешанного типа, которая основывается на преобразованиях (transformers) и трансформациях (transformations) для эффективной обработки речи. Мы применяем масштабирование на уровне данных, моделей и кода, чтобы достичь высокой точности. Для решения проблем халлуцинаций используется результирующая модель с дополнительным обучением (fine-tuning) на основе различных реальных сценариев. Для улучшения работы в реальной среде, мы внедрили технологии, улучшающие потоковую обработку (streaming), устойчивость к шумам, усовершенствовали обработку многоязычности и поддержку команд-триггеров. Функциональная разработка FunAudio-ASR также включает в себя оптимизации для реального применения, такие как уменьшение задержки и эффективное использование ресурсов. #### Результаты Мы провели ряд экспериментов на различных наборах данных, включая общие тестовые наборы и реальные промышленные данные. Эксперименты показали, что FunAudio-ASR превосходит другие LLM-системы по метрикам точности распознавания в сценариях, характерных для реальных приложений. Наши результаты показали снижение халлуцинаций на 20% по сравнению с самыми близкими конкурентами. Улучшения в потоковой обработке и шумоустойчивости продемонстрировали прирост эффективности в условиях реального применения. Эксперименты были проведены с использованием как стандартных, так и корпоративных данных, чтобы продемонстрировать широту и эффективность наших решений в различных условиях. #### Значимость FunAudio-ASR может быть применен в различных областях, включая смартфо

Annotation:

ID: 2509.12508v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 VibeVoice Technical Report

2025-08-28

Авторы:

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

## Контекст В современной генеративной моделировании сложной аудио-информации существует ряд проблем, связанных с ограничениями в обработке длинных потоков звука, поддержки множественных голосов и сохранением высокой фидлити. Многие модели существуют в виде оптимизации пространственного и временного контекста, что приводит к ограниченному буферу для обработки длинных аудио-потоков. Также, отсутствие универсального подхода к моделированию сочетания фидлити, множественных голосов и длинных сессий затрудняет создание реалистичных моделей для потокового подкастов, диалогов и многоголосых сценариев. Из этой мотивации возникла потребность в разработке модели, которая могла бы синтезировать длинные сеансы речевого потока с несколькими голосами, сохраняя высокое качество синтеза звука и обеспечивая высокую эффективность вычислений. ## Метод VibeVoice представляет собой новый подход к моделированию длинного речевого потока при помощи метода **next-token diffusion**. Этот подход представляет собой авторегрессивный процесс, который синтезирует длинные аудио-потоки путем последовательной генерации разностных сэмплов (latent vectors), которые последовательно кодируются и декодируются. Модель включает в себя **новую контекстно-зависимую архитектуру**, которая может обрабатывать длинные потоки звука в реальном времени. Для того, чтобы эффективно закодировать длинные аудио-потоки, VibeVoice использует **продолжительное звуковое токенизаторное решение**, которое позволяет сократить объем данных на **80 раз**, но при этом сохраняет высокую фидлити. Это решение позволяет VibeVoice обрабатывать длинные диалоги и многоголосые сценарии без потери качества. ## Результаты VibeVoice протестирована на высококачественных данных, включающих диалоги, многоголосые сценарии и многочасовые потоки речи. Основные результаты показали, что модель может синтезировать речь с **до 90 минут** длиной (в буфере 64K), что значительно превышает ограничения других моделей. Эксперименты показали, что VibeVoice **выдает более высокое качество звука** и **заметно намного лучше поддерживает многоголосую синтезированную речь**. Модель была проверена на многоголосых сценариях, в том числе в диалогах, и показала способность сохранять **контекстный тон, звучание и интонацию** для каждого голоса, даже при длительных сценариях. ## Значимость VibeVoice может быть применена в различных сферах, включая **создание живых диалогов**, **потоковые аудио-контент**, **мультиголосые руководства по обучению** и **аудио-синтез для новостных потоков**. Модель обеспечивает **высокую эффективность вычислений**, что делает ее привлекательной для моб

Annotation:

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fid...

ID: 2508.19205v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr

2025-08-25

Авторы:

Xuwen Yang

## Контекст Задача распознавания речи (ASR) является ключевым вопросом в области обработки естественного языка и искусственного интеллекта. За последние годы end-to-end ASR модели показали свою эффективность в решении этой задачи, особенно на тренировочных данных. Однако, эти модели чувствительны к шуму и помехам во время работы. Это приводит к катастрофическим ошибкам в семантическом плане, которые могут серьезно снизить качество распознавания. Основная причина этого слабости моделей заключается в том, что они оптимизируются только для минимизации ошибок в конечном выходном результате, не учитывая внутреннюю консистентность процесса вычислений модели. Это делает их нестабильными в условиях реального мира, где шум и помехи типичны. Ранее предложенные решения, такие как методы грубой фильтрации или дополнительных уровней регуляризации, не удалось значительно улучшить устойчивость моделей. Мотивовано этим, в данной работе предлагается новое решение, нацеленное на улучшение внутренней консистентности ASR моделей через многоуровневую регуляризацию. ## Метод Методология предложенного подхода, названного MGSC (Multi-Granularity Soft Consistency), основывается на многоуровневой регуляризации, которая адресует две разные гранулярности консистентности: макро-уровень (семантический контекст) и микро-уровень (токен-уровень). Макро-уровень регуляризации реализует самоудовлетворяющую структуру данных, при которой выход модели должен соответствовать логическому потоку смысла в тексте. Микро-уровень регуляризации фокусируется на том, чтобы токены в выходном потоке тщательно соответствовали словарным единицам и методам раскрытия слова. Технически, MGSC представляет собой модель-агностичный модуль, который может быть интегрирован с любыми end-to-end ASR моделями. Он внедряет дополнительные функциональные ограничения в процесс обучения, чтобы модель не только правильно предсказывала выход, но и сохраняла консистентность во всех слоях вычислительного процесса. Это позволяет уменьшить ошибки, которые могут возникать из-за невязок между семантическим контекстом и токенным раскрытием. ## Результаты На ходу проведены ряд экспериментов на широко известной ASR датасете, представляющем собой звуковые фрагменты с их текстовыми обозначениями. Модель, воспользовавшись MGSC фреймворком, была сравнена с другими методами регуляризации. Результаты показали, что MGSC существенно уменьшает Character Error Rate (CER) в условиях шумового окружения, снижая его на 8.7% по отношению к базовой модели. Это связано с тому, что MGSC не только уменьшает частоту смысловых ошибок, но и улучшает

Annotation:

End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously...

ID: 2508.15853v1 cs.CL, cs.AI, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 Dual Information Speech Language Models for Emotional Conversations

2025-08-13

Авторы:

Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng

## Контекст Говорящие системы, основанные на текстовых больших лингвистических моделях (LLMs), часто пропускают паралингвистические сигналы, которые играют ключевую роль в понимании эмоций и намерений. Для решения этой проблемы появились модели речи-языка (SLMs), которые используют записи речи в качестве входных данных. Однако существующие SLMs, разработанные на основе замороженных LLMs, сталкиваются с ограниченным пониманием контекста и неэффективным извлечением паралингвистических сигналов. Основные проблемы включают конфузированность информации и неудачные стратегии обучения. Модели, которые не могут эффективно различать лингвистическую и паралингвистическую информацию, не могут предоставить богатый контекст для понимания эмоций и намерений. Наша цель — создать модель, которая избавится от этих проблем и позволит SLM эффективно интегрировать обе сферы информации в контексте диалога. ## Метод Мы предлагаем двухадаптеровую модель, которая разделяет паралингвистическую и лингвистическую информацию на отдельных уровнях. Одна адаптера отвечает за паралингвистические сигналы (например, тональность, интонация), а другая — за лингвистические (семантику и лексику). Мы также предлагаем непрерывное слабо направленное обучение, которое позволяет модели учиться сохранять контекст, не забывая о паралингвистических сигналах. Модель обучается на существующих общих данных, используя только адаптеры для изменения представлений слов, что делает ее эффективной в плане параметров и используемых данных. За основу этой модели мы берем уже существующие LLM, но изменяем его поведение через адаптивные слои, которые обрабатывают паралингвистическую информацию раздельно от лингвистической. ## Результаты Мы проверили нашу модель на задачах распознавания эмоций в разговорах. Для обучения использовались данные, содержащие как текстовую, так и аудио-информацию. Наши эксперименты показали, что модель Dual Information Speech Language Model (DISLM) превосходит существующие SLM-модели по метрикам, таким как F1-score и accuracy. Дискурсные сигналы, такие как звучание, тональность и интонация, были эффективно интегрированы в лингвистическую модель, что повлияло на качество понимания эмоций. Модель также показала высокую точность в задачах классификации эмоций и демонстрирует улучшенную способность понимать контекст в разговорах. ## Значимость Наша модель имеет широкие области применения, в том числе в системах консультирования, сервисных роботах, системах контроля качества звонков и в разработке интеллектуальных ассистентов. Особым

Annotation:

Conversational systems relying on text-based large language models (LLMs) often overlook paralinguistic cues, essential for understanding emotions and intentions. Speech-language models (SLMs), which use speech as input, are emerging as a promising solution. However, SLMs built by extending frozen LLMs struggle to capture paralinguistic information and exhibit reduced context understanding. We identify entangled information and improper training strategies as key issues. To address these issues,...

ID: 2508.08095v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

Показано 1 - 10 из 11 записей