📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment

2025-10-25

Авторы:

Zhiyu Lin, Jingwen Yang, Jiale Zhao, Meng Liu, Sunzhu Li, Benyou Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent speech-to-speech (S2S) models generate intelligible speech but still lack natural expressiveness, largely due to the absence of a reliable evaluation metric. Existing approaches, such as subjective MOS ratings, low-level acoustic features, and emotion recognition are costly, limited, or incomplete. To address this, we present DeEAR (Decoding the Expressive Preference of eAR), a framework that converts human preference for speech expressiveness into an objective score. Grounded in phonetic...

ID: 2510.20513v1 cs.SD, cs.CL, cs.LG

arXiv PDF

📄 U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation

2025-10-22

Авторы:

Xusheng Yang, Long Zhou, Wenfu Wang, Kai Hu, Shulin Feng, Chenxing Li, Meng Yu, Dong Yu, Yuexian Zou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose \textbf{U-Codec}, an \textbf{U}ltra low frame-rate neural speech \textbf{Codec} that achieves high-fidelity reconstruction and fast speech generation at an extremely low frame-rate of 5Hz (5 frames per second). Extreme compression at 5Hz typically leads to severe intelligibility and spectral detail loss, we introduce a Transformer-based inter-frame long-term dependency module and systematically explore residual vector quantization (RVQ) depth and codebook size to identify optimal conf...

ID: 2510.16718v1 cs.SD, cs.CL, cs.LG

arXiv PDF

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

2025-10-16

Авторы:

Jinchuan Tian, Sang-gil Lee, Zhifeng Kong, Sreyan Ghosh, Arushi Goel, Chao-Han Huck Yang, Wenliang Dai, Zihan Liu, Hanrong Ye, Shinji Watanabe, Mohammad Shoeybi, Bryan Catanzaro, Rafael Valle, Wei Ping

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in the audio language modeling (ALM) domain tackle audio understanding and text-to-audio generation as separate tasks. Very few studies attempt to unify these tasks -- an essential step toward advanced multimodal reasoning. This paper introduces U}nified Audio Language Model (UALM), which aims to unify audio understanding, text-to-audio generation, and multimodal reasoning in a single model. To achieve this goal, we first present UALM-Gen, a text-to-audio language model that dire...

ID: 2510.12000v1 cs.SD, cs.CL, cs.LG

arXiv PDF

📄 Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data

2025-09-23

Авторы:

Youngwon Choi, Jaeyoon Jung, Hyeonyu Kim, Huu-Kim Nguyen, Hwayeon Kim

## Контекст В последние несколько лет, большие языковые модели, ориентированные на аудио, становятся важной частью современных технологий, особенно в области распознавания речи и понимания объемного текста. Однако, несмотря на свою мощь, эти модели сталкиваются с трудностями при работе с ограниченным количеством говорящего языка. Ограниченность данных, особенно в языках с небольшим количеством ресурсов, остается основной проблемой. Эта проблема напрямую влияет на качество использования моделей для устных задач, таких как понимание естественного языка и транскрибирование речи. Наше исследование сосредоточено на изучении эффективных способов тюнинга больших аудио-языковых моделей (LALMs) для решения этих проблемы, применяя методики тюнинга, включая text-only, direct mixing, и curriculum learning. ## Метод Мы рассматриваем три основных методов тюнинга: text-only, direct mixing, и curriculum learning. **Text-only fine-tuning** заключается в обучении модели только на текстовых данных. **Direct mixing** состоит в смешивании текстовых и аудиовыводов модели. **Curriculum learning** предполагает постепенное увеличение сложности данных в процессе обучения. Мы также исследуем два сценария: обучение на больших данных и обучение с ограниченным количеством ресурсов. Для экспериментов мы используем корпусы данных, содержащие говорящий язык и текст, и определяем, насколько эффективны эти методы при разных объемах данных. Мы используем метрики, такие как F1-score и accuracy, для оценки качества распознавания речи и понимания языка. ## Результаты Наши эксперименты показали, что LALMs, даже при text-only fine-tuning, достигают высокой точности в ситуации, когда доступно большое количество текстовых данных. Например, при добавлении даже небольшого количества аудиоданных (2–5%) мы заметили значительное улучшение производительности. Метод curriculum learning дал самые высокие результаты при ограниченных ресурсах, позволяя модели сфокусироваться на сложности данных в зависимости от прогресса обучения. Также, в сценарии межязыкового тюнинга, когда доступны данные о говорящем языке в одном языке, а целевой язык имеет только текстовые данные, LALMs показали эффективность в адаптации к новому языку. ## Значимость Проанализированные методы имеют практическое значение для области тюнинга моделей АСТ, особенно в ситуациях, когда ресурсы данных ограничены. Эти подходы могут быть применены не только в распознавании речи, но и в других задачах, таких как транскрибирование речи и контекстное понимание естественного языка. Они позволяют значительно увеличить точность работы моделей, даже при доступе к минимальным объемам реч

Annotation:

Large Audio Language Models (LALMs) have emerged as powerful tools for speech-related tasks but remain underexplored for fine-tuning, especially with limited speech data. To bridge this gap, we systematically examine how different fine-tuning schemes including text-only, direct mixing, and curriculum learning affect spoken language understanding (SLU), focusing on scenarios where text-label pairs are abundant while paired speech-label data are limited. Results show that LALMs already achieve com...

ID: 2509.15389v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

2025-08-29

Авторы:

Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt

## Контекст Обучение моделей распознавания речи является ключевым вопросом в интеллектуальных системах. Несмотря на улучшение методов обучения и доступность больших корпусов текстов и аудио, развитие моделей, способных высококвалифицированное распознавание речи в нетренировочных условиях, остается недостаточно изученным. Особенно это касается сценариев с нулевым допущением, где необходимо справиться с незнакомыми акцентами, языками и стилями речи. Данная работа основывается на необходимости создания прозрачных моделей и данных, которые способствуют продвижению исследований в области зеркального распознавания речи. ## Метод Для исследований в области зеркального распознавания речи был разработан корпус OLMoASR-Pool, содержащий 3 миллиона часов аудио и 17 миллионов транскрипций на английском языке. Данный корпус был отфильтрован с помощью текстовых фильтров, чтобы исключить низкокачественные или неточно транскрибированные данные. В итоге был получен корпус OLMoASR-Mix, содержащий 1 миллион часов высококачественных аудио-транскрипций. На этом корпусе были обучены модели OLMoASR с различными параметрами, начиная от 39 миллионов (tiny.en) до 1.5 миллиардов (large.en) параметров. ## Результаты Обученные модели OLMoASR-Mix прошли тестирование на множестве коротких и длинных форм речи, а также были сравнены с моделью OpenAI Whisper. Модели OLMoASR-medium.en показали результаты, схожие с задней версией Whisper-medium.en, с WER 12.8% для коротких форм и 11.0% для длинных форм. Эти результаты указывают на высокую эффективность моделей OLMoASR в области зеркального распознавания речи. ## Значимость Области применения OLMoASR-Mix включают разработку моделей для распознавания речи в нетренировочных условиях, а также для построения систем, которые могут работать в разных акцентах и языках. Важность исследования заключается в том, что оно демонстрирует возможность повышения качества распознавания речи с помощью прозрачного подхода к созданию моделей и данных. ## Выводы Выводы работы указывают на успех построения масштабного корпуса и моделей для зеркального распознавания речи. Будущие исследования будут фокусироваться на расширении данного подхода на другие языки, а также на повышение качества речи в сценариях низкого ресурса. Общедоступность OLMoASR-Pool, моделей и кода позволит дальнейшему продвижению исследований в этой области.

Annotation:

Improvements in training data scale and quality have led to significant advances, yet its influence in speech recognition remains underexplored. In this paper, we present a large-scale dataset, OLMoASR-Pool, and series of models, OLMoASR, to study and develop robust zero-shot speech recognition models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio and 17M transcripts, we design text heuristic filters to remove low-quality or mistranscribed data. Our curation pipeline pro...

ID: 2508.20869v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Beyond Transcription: Mechanistic Interpretability in ASR

2025-08-25

Авторы:

Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon

## Контекст Интерпретируемость моделей — ключевая задача в современной аналитике и моделировании языка. Несмотря на значительные улучшения моделей естественного языка в последние годы, развитие инструментов для понимания их внутренних механизмов остается недостаточным, особенно в случае автоматического распознавания речи (ASR). Хотя ASR получил широкое применение в различных сферах, включая электронные носители, здравоохранение и юридическую сферу, проблемы в интерпретируемости моделей и динамике слоёв внутри них остаются открытыми. Эти проблемы влияют на надежность систем, разделение синонимов, недооценку значимости слов и другие ошибки. В этой работе мы применяем интерпретируемые методы, которые ранее применялись к текстовым моделям, к ASR с целью раскрыть его недооцененный потенциал для повышения прозрачности и надёжности. ## Метод Мы применяем методы интерпретируемости, которые ранее использовались для расследования внутренних механизмов текстовых моделей, к асеру. Методы включают **logit lens** (обнаружение влияния входных данных на выходные), **linear probing** (тестирование значимости извлечённых признаков) и **activation patching** (исследование как динамики слоёв, так и связи слоёв). Эти методы применяются к различным слоям модели ASR, чтобы увидеть, как звуковые и семантические информации преобразуются в процессе распознавания. Особое внимание уделяется изучению поведения модели в случае ошибок, таких как повторения и семантические биазы. ## Результаты Исследования показали, что ASR модели используют различные слои для захвата акцента, интонаций и других акустических черт, а также для классификации слов. Мы обнаружили, что некоторые слои более чувствительны к ошибкам, таким как повторения и несоответствия семантики. Например, на третьем слое модели, мы обнаружили, что она более напрямую влияет на повторение слов, чем на другие ошибки. Была также выявлена связь между слоями и семантическим биазом, который может отражаться в системе при распознавании звука. ## Значимость Результаты этой работы могут направить исследователей на поиск новых способов улучшения моделей ASR, особенно в сферах, где языковая интерпретируемость и надёжность критичны. Например, в здравоохранении, где любая неточность может привести к нарушению безопасности, или в юридических системах, где точность распознавания речи является критически важной. Благодаря расширению инструментов интерпретируемости, модели ASR могут стать более прозрачными и надежными, что приведёт к улучшению их применения в реальном мире. ## Выводы В данной работе мы доказали, что и

Annotation:

Interpretability methods have recently gained significant attention, particularly in the context of large language models, enabling insights into linguistic representations, error detection, and model behaviors such as hallucinations and repetitions. However, these techniques remain underexplored in automatic speech recognition (ASR), despite their potential to advance both the performance and interpretability of ASR systems. In this work, we adapt and systematically apply established interpreta...

ID: 2508.15882v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF