📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets

2025-11-19

Авторы:

Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Tekla Etelka Gráczi, Anna Kohári, Katalin Mády

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The advancement of automatic speech recognition (ASR) has been largely enhanced by extensive datasets in high-resource languages, while languages such as Hungarian remain underrepresented due to limited spontaneous and conversational corpora. To address this gap, we introduce two new datasets -- BEA-Large and BEA-Dialogue -- constructed from the previously unprocessed portions of the Hungarian speech corpus named BEA. BEA-Large extends BEA-Base with 255 hours of spontaneous speech from 433 speak...

ID: 2511.13529v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS

2025-10-24

Авторы:

Brandon James Carone, Iran R. Roman, Pablo Ripollés

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated capabilities in audio understanding, but current evaluations may obscure fundamental weaknesses in relational reasoning. We introduce the Music Understanding and Structural Evaluation (MUSE) Benchmark, an open-source resource with 10 tasks designed to probe fundamental music perception skills. We evaluate four SOTA models (Gemini Pro and Flash, Qwen2.5-Omni, and Audio-Flamingo 3) against a large human baseline (N=200). Our results reveal...

ID: 2510.19055v1 cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Steering Autoregressive Music Generation with Recursive Feature Machines

2025-10-24

Авторы:

Daniel Zhao, Daniel Beaglehole, Taylor Berg-Kirkpatrick, Julian McAuley, Zachary Novack

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Controllable music generation remains a significant challenge, with existing methods often requiring model retraining or introducing audible artifacts. We introduce MusicRFM, a framework that adapts Recursive Feature Machines (RFMs) to enable fine-grained, interpretable control over frozen, pre-trained music models by directly steering their internal activations. RFMs analyze a model's internal gradients to produce interpretable "concept directions", or specific axes in the activation space that...

ID: 2510.19127v1 cs.LG, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment

2025-10-22

Авторы:

Fu-An Chao, Bi-Cheng Yan, Berlin Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we explore the untapped potential of Whisper, a well-established automatic speech recognition (ASR) foundation model, in the context of L2 spoken language assessment (SLA). Unlike prior studies that extrinsically analyze transcriptions produced by Whisper, our approach goes a step further to probe its latent capabilities by extracting acoustic and linguistic features from hidden representations. With only a lightweight classifier being trained on top of Whisper's intermediate and ...

ID: 2510.16387v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Extending Audio Context for Long-Form Understanding in Large Audio-Language Models

2025-10-21

Авторы:

Yuatyong Chaichana, Pittawat Taveekitworachai, Warit Sirichotedumrong, Potsawee Manakul, Kunat Pipatanakul

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Audio-Language Models (LALMs) are often constrained by short audio context windows, even when their text backbones support long contexts, limiting long-form audio understanding. Prior work has introduced context-extension methods (e.g. YaRN) on unimodal LLMs, yet their application to LALMs remains unexplored. First, building on RoPE-based context extension, we introduce Partial YaRN, a training-free, audio-only extension method that modifies only audio token positions, leaving text positio...

ID: 2510.15231v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation

2025-10-10

Авторы:

Vaibhav Srivastav, Steven Zheng, Eric Bezzam, Eustache Le Bihan, Nithin Koluguri, Piotr Żelasko, Somshubra Majumdar, Adel Moumen, Sanchit Gandhi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite rapid progress, ASR evaluation remains saturated with short-form English, and efficiency is rarely reported. We present the Open ASR Leaderboard, a fully reproducible benchmark and interactive leaderboard comparing 60+ open-source and proprietary systems across 11 datasets, including dedicated multilingual and long-form tracks. We standardize text normalization and report both word error rate (WER) and inverse real-time factor (RTFx), enabling fair accuracy-efficiency comparisons. For En...

ID: 2510.06961v2 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 EvolveCaptions: Empowering DHH Users Through Real-Time Collaborative Captioning

2025-10-04

Авторы:

Liang-Yuan Wu, Dhruv Jain

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automatic Speech Recognition (ASR) systems often fail to accurately transcribe speech from Deaf and Hard of Hearing (DHH) individuals, especially during real-time conversations. Existing personalization approaches typically require extensive pre-recorded data and place the burden of adaptation on the DHH speaker. We present EvolveCaptions, a real-time, collaborative ASR adaptation system that supports in-situ personalization with minimal effort. Hearing participants correct ASR errors during liv...

ID: 2510.02181v1 cs.HC, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology

2025-09-24

Авторы:

Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber

#### Контекст Согласно данным США, более 3,4 миллиона детей страдают от языковых нарушений, требующих клинического вмешательства. Однако число лиц с квалификацией специалиста по языковым нарушениям (SLPs) составляет всего 20 раз меньше, чем число детей, что вызывает значительную проблему в оказании медицинской помощи и вызывает необходимость в технологической поддержке. Многомодальные языковые модели (MLMs) показали себя как перспективные инструменты для поддержки SLPs, но их применение в клинических условиях остается недостаточно изученным. Основным мотивом исследования является заполнение этой лакуны, чтобы определить потенциал и ограничения этих моделей в этой области. #### Метод Мы сотрудничали с клиническими специалистами для определения реальных ситуаций, в которых могут применяться MLMs в области языковых нарушений. На основе этого, мы разработали первую полную бенчмарк-сеть для оценки MLMs, включающую 5 основных классов задач с 1000 мануально аннотированными данными для каждого класса. Мы продумали тесты на жесткость и чувствительность, включая условия с фоновым шумом, разными половыми и акцентными особенностями. Мы проверили 15 лидирующих MLMs, которые определяются в соответствии с тестами, и оценили их взаимосвязь с различными условиями. #### Результаты Наши эксперименты показали, что ни одна модель не показала стабильного лидера во всех задачах. Мы обнаружили четкие диспаритеты, в частности, модели показали лучшую точность для мужских речевых звуков. Мы также обнаружили, что chain-of-thought prompting может ухудшать точность классификации в случаях, когда параметры языковой модели требуют высокой точности и узких границ между классами. Мы также проверили технику файн-тюнинга MLMs на определенном клиническом видео, получив улучшения до 30% по сравнению с базовыми моделями. Эти результаты подчеркивают как возможности, так и ограничения текущих MLMs в сфере языковых нарушений. #### Значимость Наши полученные методики и результаты могут быть применены в широкой сфере языковых нарушений, включая тестирование и оптимизацию новых технологий. Наша работа обозначает значительные преимущества технологической поддержки в данной области, которая может повысить производительность SLPs и улучшить доступ к значительной поддержке для детей. Мы также выделили возможности для дальнейшего исследования, в том числе изучение улучшений моделей и их применения в широких клинических условиях. #### Выводы Наша работа ставится в значительное продолжение исследований в области многомодальных языковых моделей для клинических це

Annotation:

According to the U.S. National Institutes of Health, more than 3.4 million children experience speech disorders that require clinical intervention. The number of speech-language pathologists (SLPs) is roughly 20 times fewer than the number of affected children, highlighting a significant gap in children's care and a pressing need for technological support that improves the productivity of SLPs. State-of-the-art multimodal language models (MLMs) show promise for supporting SLPs, but their use rem...

ID: 2509.16765v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-19

Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

#################### ## Контекст #################### Фундаментальные инновации в области звукозаписи и обработки речи в последние годы продолжают преобразовывать сферу устных интеракций. Одним из ключевых направлений является развитие систем автоматического распознавания речи (ASR). Текущие системы ASR сталкиваются с рядом технических и практических вызовов, включая неточности в распознавании, ограниченную устойчивость к шумам и сложности с обработкой нестандартных речевых сценариев. Эти проблемы возникают благодаря ограниченности данных, ограничению моделей и нехватке эффективных методов для интеграции с большими языковыми моделями (LLMs). Эти факторы приводят к снижению качества распознавания в реальных сценариях. Мы предлагаем FunAudio-ASR, систему ASR, которая развивает существующие парадигмы, включая масштабирование данных, развитие моделей и интеграцию с LLMs, для избавления от этих проблем и улучшения надежности ASR в прикладных задачах. #################### ## Метод #################### FunAudio-ASR основывается на трех основных компонентах: использование больших наборов данных, развитие моделей на основе LLMs и интеграция с поддержкой развития производительности с помощью оптимизации под реальные сценарии. Мы используем масштабированные вычисления и методы представления моделей для обработки звуковых сигналов с высокой точностью. Для улучшения устойчивости к шумам и кодам-переключения мы разработали специальные алгоритмы. Также, мы используем технологии фонового обучения и получения результатов с повышенной скоростью. Эта система разработана в соответствии с особенностями реальных приложений и интегрирует современные решения для обработки речи, чтобы обеспечить высокую производительность в различных условиях. #################### ## Результаты #################### Мы провели ряд экспериментов для оценки производительности FunAudio-ASR в различных сценариях. Эти эксперименты включили сценарии с многоязычным распознаванием, сценарии с шумовыми условиями и сценарии с кодами-переключения. Мы применяли наборы данных, включая официальные открытые индикаторы, а также наши собственные реальные данные. FunAudio-ASR показал стабильно высокую точность в распознавании в этих сценариях. На открытых наборах данных, например, он демонстрирует среднее соотношение ошибок в тексте, аналогичное самым передовым системам. Однако, главный преимущество FunAudio-ASR заключается в сильном показателе в реальных сценариях, где многие другие системы LLM-ASR показывают снижение производительности. Это подтверждает эффективность нашей системы в реальных условиях. #################### ## Значимость #################### FunAudio-ASR может быть применено в различных практических сферах, вкл

Annotation:

In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integra...

ID: 2509.12508v2 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-18

Авторы:

#### Контекст Автоматическое распознавание речи (ASR) стало клллючевым элементом в интерактивных системах, включая смартфоны, поисковые системы и системы управления домашним электроникой. Однако существуют значительные проблемы, связанные с точностью распознавания речи в реальных условиях. Эти проблемы включают разные акценты, шумы, смешивание языков (code-switching) и необходимость реагировать на команды-триггеры (hotwords). Традиционные ASR-системы часто страдают от недостатка обучающих данных или неэффективности моделей. Недавние прогрессы в области глубокого обучения, включая модели широкого масштабирования (scaling) и интеграцию с большими языковыми моделями (LLMs), позволили значительно улучшить результаты распознавания. Несмотря на эти успехи, существуют ограничения, в частности риск халлуцинаций (неверных ответов), которые могут существенно повлиять на качество пользовательского опыта в реальных приложениях. #### Метод Мы предлагаем FunAudio-ASR, мощную глубоко интегрированную систему ASR, основанную на LLM. Основной архитектурой является модель смешанного типа, которая основывается на преобразованиях (transformers) и трансформациях (transformations) для эффективной обработки речи. Мы применяем масштабирование на уровне данных, моделей и кода, чтобы достичь высокой точности. Для решения проблем халлуцинаций используется результирующая модель с дополнительным обучением (fine-tuning) на основе различных реальных сценариев. Для улучшения работы в реальной среде, мы внедрили технологии, улучшающие потоковую обработку (streaming), устойчивость к шумам, усовершенствовали обработку многоязычности и поддержку команд-триггеров. Функциональная разработка FunAudio-ASR также включает в себя оптимизации для реального применения, такие как уменьшение задержки и эффективное использование ресурсов. #### Результаты Мы провели ряд экспериментов на различных наборах данных, включая общие тестовые наборы и реальные промышленные данные. Эксперименты показали, что FunAudio-ASR превосходит другие LLM-системы по метрикам точности распознавания в сценариях, характерных для реальных приложений. Наши результаты показали снижение халлуцинаций на 20% по сравнению с самыми близкими конкурентами. Улучшения в потоковой обработке и шумоустойчивости продемонстрировали прирост эффективности в условиях реального применения. Эксперименты были проведены с использованием как стандартных, так и корпоративных данных, чтобы продемонстрировать широту и эффективность наших решений в различных условиях. #### Значимость FunAudio-ASR может быть применен в различных областях, включая смартфо

Annotation:

ID: 2509.12508v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

Показано 1 - 10 из 19 записей