📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Re-evaluating Minimum Bayes Risk Decoding for Automatic Speech Recognition

2025-10-24

Авторы:

Yuu Jinnai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent work has shown that sample-based Minimum Bayes Risk (MBR) decoding outperforms beam search in text-to-text generation tasks, such as machine translation, text summarization, and image captioning. On the other hand, beam search is the current practice for speech-to-text tasks such as automatic speech recognition (ASR) and Speech Translation (ST). Given that MBR decoding is effective in text-to-text generation tasks, it is reasonable to expect it to also be effective for speech-to-text task...

ID: 2510.19471v1 cs.CL, cs.LG, eess.AS

arXiv PDF

📄 TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG

2025-10-18

Авторы:

Annisaa Fitri Nurfidausi, Eleonora Mancini, Paolo Torroni

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Depression is a widespread mental health disorder, yet its automatic detection remains challenging. Prior work has explored unimodal and multimodal approaches, with multimodal systems showing promise by leveraging complementary signals. However, existing studies are limited in scope, lack systematic comparisons of features, and suffer from inconsistent evaluation protocols. We address these gaps by systematically exploring feature representations and modelling strategies across EEG, together wit...

ID: 2510.14922v1 cs.AI, cs.CL, cs.LG, eess.AS, eess.SP

arXiv PDF

📄 Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

2025-10-15

Авторы:

KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP ...

ID: 2510.11330v1 cs.SD, cs.AI, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba

2025-10-08

Авторы:

Baher Mohammad, Magauiya Zhussip, Stamatios Lefkimmiatis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce MAVE (Mamba with Cross-Attention for Voice Editing and Synthesis), a novel autoregressive architecture for text-conditioned voice editing and high-fidelity text-to-speech (TTS) synthesis, built on a cross-attentive Mamba backbone. MAVE achieves state-of-the-art performance in speech editing and very competitive results in zero-shot TTS, while not being explicitly trained on the latter task, outperforming leading autoregressive and diffusion models on diverse, real-world audio. By in...

ID: 2510.04738v1 cs.SD, cs.AI, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data

2025-09-23

Авторы:

Youngwon Choi, Jaeyoon Jung, Hyeonyu Kim, Huu-Kim Nguyen, Hwayeon Kim

## Контекст В последние несколько лет, большие языковые модели, ориентированные на аудио, становятся важной частью современных технологий, особенно в области распознавания речи и понимания объемного текста. Однако, несмотря на свою мощь, эти модели сталкиваются с трудностями при работе с ограниченным количеством говорящего языка. Ограниченность данных, особенно в языках с небольшим количеством ресурсов, остается основной проблемой. Эта проблема напрямую влияет на качество использования моделей для устных задач, таких как понимание естественного языка и транскрибирование речи. Наше исследование сосредоточено на изучении эффективных способов тюнинга больших аудио-языковых моделей (LALMs) для решения этих проблемы, применяя методики тюнинга, включая text-only, direct mixing, и curriculum learning. ## Метод Мы рассматриваем три основных методов тюнинга: text-only, direct mixing, и curriculum learning. **Text-only fine-tuning** заключается в обучении модели только на текстовых данных. **Direct mixing** состоит в смешивании текстовых и аудиовыводов модели. **Curriculum learning** предполагает постепенное увеличение сложности данных в процессе обучения. Мы также исследуем два сценария: обучение на больших данных и обучение с ограниченным количеством ресурсов. Для экспериментов мы используем корпусы данных, содержащие говорящий язык и текст, и определяем, насколько эффективны эти методы при разных объемах данных. Мы используем метрики, такие как F1-score и accuracy, для оценки качества распознавания речи и понимания языка. ## Результаты Наши эксперименты показали, что LALMs, даже при text-only fine-tuning, достигают высокой точности в ситуации, когда доступно большое количество текстовых данных. Например, при добавлении даже небольшого количества аудиоданных (2–5%) мы заметили значительное улучшение производительности. Метод curriculum learning дал самые высокие результаты при ограниченных ресурсах, позволяя модели сфокусироваться на сложности данных в зависимости от прогресса обучения. Также, в сценарии межязыкового тюнинга, когда доступны данные о говорящем языке в одном языке, а целевой язык имеет только текстовые данные, LALMs показали эффективность в адаптации к новому языку. ## Значимость Проанализированные методы имеют практическое значение для области тюнинга моделей АСТ, особенно в ситуациях, когда ресурсы данных ограничены. Эти подходы могут быть применены не только в распознавании речи, но и в других задачах, таких как транскрибирование речи и контекстное понимание естественного языка. Они позволяют значительно увеличить точность работы моделей, даже при доступе к минимальным объемам реч

Annotation:

Large Audio Language Models (LALMs) have emerged as powerful tools for speech-related tasks but remain underexplored for fine-tuning, especially with limited speech data. To bridge this gap, we systematically examine how different fine-tuning schemes including text-only, direct mixing, and curriculum learning affect spoken language understanding (SLU), focusing on scenarios where text-label pairs are abundant while paired speech-label data are limited. Results show that LALMs already achieve com...

ID: 2509.15389v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Mitigating Data Imbalance in Automated Speaking Assessment

2025-09-05

Авторы:

Fong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen

## Контекст Автоматическая оценка речи (Automated Speaking Assessment, ASA) является ключевым инструментом для оценки профициентности владения второй языком (L2) учащихся. Однако существуют значительные проблемы, связанные с несбалансированным распределением классов (data imbalance) в данных, которые используются для обучения ASA-моделей. Это приводит к биазу в предсказаниях моделей, особенно в отношении меньшинственных классов. Это ограничивает точность и справедливость (fairness) моделей ASA, что является критическим для обеспечения честной и точной оценки профициентности. Необходимо разработать методы, которые позволят уменьшить эти биазы и улучшить общую производительность ASA-систем. ## Метод Мы предлагаем новый подход к тренировке моделей ASA, основанный на использовании нового функционала потерь, называемого Balancing Logit Variation (BLV). Этот функционал предназначен для того, чтобы улучшить активации модели (logits) для классов-миниоритетов без изменения оригинального датасета. Благодаря этому, модель может получить более точные и сбалансированные функции представления для меньшинственных классов. Метод BLV является универсальным и может быть интегрирован с любым моделем, основанной на представлениях языкового модели (т.е. BERT). Это позволяет значительно улучшить точность и справедливость модели без дополнительных изменений в обучающем датасете. ## Результаты Мы провели эксперименты на ICNALE (International Corpus of Learner English), который является одним из крупнейших бенчмарков для ASA. Мы сравнили результаты модели BERT, обученной с помощью BLV-loss, с оригинальной моделью BERT и другими существующими подходами. Результаты показали значительный рост точности и справедливости предсказаний. Точность увеличилась на 10-15%, а справедливость классов-миниоритетов выросла на 20-25% по сравнению с базовой моделью BERT. Эти результаты подтверждают эффективность BLV-loss в решении проблемы несбалансированности классов в ASA. ## Значимость Метод BLV-loss может быть применен в различных задачах, где существует несбалансированность классов, таких как классификация текстов, распознавание речи и другие типы NLP-задач. Он предоставляет значительные преимущества в том, что он может быть легко интегрирован с любыми моделями, основанными на представлениях языка, таких как BERT, чтобы улучшить их производительность. Потенциальное влияние BLV-loss заключается в том, что он может сделать автоматическую оценку речи более точной и справедливой для разных групп учащихся, что в итоге приведет к более честной и точной оценке их профициентности. ## Выводы Мы представили новый подход к решению проблемы несбалансированности клас

Annotation:

Automated Speaking Assessment (ASA) plays a crucial role in evaluating second-language (L2) learners proficiency. However, ASA models often suffer from class imbalance, leading to biased predictions. To address this, we introduce a novel objective for training ASA models, dubbed the Balancing Logit Variation (BLV) loss, which perturbs model predictions to improve feature representation for minority classes without modifying the dataset. Evaluations on the ICNALE benchmark dataset show that integ...

ID: 2509.03010v1 cs.CL, cs.LG, eess.AS

arXiv PDF

📄 OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

2025-08-29

Авторы:

Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt

## Контекст Обучение моделей распознавания речи является ключевым вопросом в интеллектуальных системах. Несмотря на улучшение методов обучения и доступность больших корпусов текстов и аудио, развитие моделей, способных высококвалифицированное распознавание речи в нетренировочных условиях, остается недостаточно изученным. Особенно это касается сценариев с нулевым допущением, где необходимо справиться с незнакомыми акцентами, языками и стилями речи. Данная работа основывается на необходимости создания прозрачных моделей и данных, которые способствуют продвижению исследований в области зеркального распознавания речи. ## Метод Для исследований в области зеркального распознавания речи был разработан корпус OLMoASR-Pool, содержащий 3 миллиона часов аудио и 17 миллионов транскрипций на английском языке. Данный корпус был отфильтрован с помощью текстовых фильтров, чтобы исключить низкокачественные или неточно транскрибированные данные. В итоге был получен корпус OLMoASR-Mix, содержащий 1 миллион часов высококачественных аудио-транскрипций. На этом корпусе были обучены модели OLMoASR с различными параметрами, начиная от 39 миллионов (tiny.en) до 1.5 миллиардов (large.en) параметров. ## Результаты Обученные модели OLMoASR-Mix прошли тестирование на множестве коротких и длинных форм речи, а также были сравнены с моделью OpenAI Whisper. Модели OLMoASR-medium.en показали результаты, схожие с задней версией Whisper-medium.en, с WER 12.8% для коротких форм и 11.0% для длинных форм. Эти результаты указывают на высокую эффективность моделей OLMoASR в области зеркального распознавания речи. ## Значимость Области применения OLMoASR-Mix включают разработку моделей для распознавания речи в нетренировочных условиях, а также для построения систем, которые могут работать в разных акцентах и языках. Важность исследования заключается в том, что оно демонстрирует возможность повышения качества распознавания речи с помощью прозрачного подхода к созданию моделей и данных. ## Выводы Выводы работы указывают на успех построения масштабного корпуса и моделей для зеркального распознавания речи. Будущие исследования будут фокусироваться на расширении данного подхода на другие языки, а также на повышение качества речи в сценариях низкого ресурса. Общедоступность OLMoASR-Pool, моделей и кода позволит дальнейшему продвижению исследований в этой области.

Annotation:

Improvements in training data scale and quality have led to significant advances, yet its influence in speech recognition remains underexplored. In this paper, we present a large-scale dataset, OLMoASR-Pool, and series of models, OLMoASR, to study and develop robust zero-shot speech recognition models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio and 17M transcripts, we design text heuristic filters to remove low-quality or mistranscribed data. Our curation pipeline pro...

ID: 2508.20869v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Beyond Transcription: Mechanistic Interpretability in ASR

2025-08-25

Авторы:

Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon

## Контекст Интерпретируемость моделей — ключевая задача в современной аналитике и моделировании языка. Несмотря на значительные улучшения моделей естественного языка в последние годы, развитие инструментов для понимания их внутренних механизмов остается недостаточным, особенно в случае автоматического распознавания речи (ASR). Хотя ASR получил широкое применение в различных сферах, включая электронные носители, здравоохранение и юридическую сферу, проблемы в интерпретируемости моделей и динамике слоёв внутри них остаются открытыми. Эти проблемы влияют на надежность систем, разделение синонимов, недооценку значимости слов и другие ошибки. В этой работе мы применяем интерпретируемые методы, которые ранее применялись к текстовым моделям, к ASR с целью раскрыть его недооцененный потенциал для повышения прозрачности и надёжности. ## Метод Мы применяем методы интерпретируемости, которые ранее использовались для расследования внутренних механизмов текстовых моделей, к асеру. Методы включают **logit lens** (обнаружение влияния входных данных на выходные), **linear probing** (тестирование значимости извлечённых признаков) и **activation patching** (исследование как динамики слоёв, так и связи слоёв). Эти методы применяются к различным слоям модели ASR, чтобы увидеть, как звуковые и семантические информации преобразуются в процессе распознавания. Особое внимание уделяется изучению поведения модели в случае ошибок, таких как повторения и семантические биазы. ## Результаты Исследования показали, что ASR модели используют различные слои для захвата акцента, интонаций и других акустических черт, а также для классификации слов. Мы обнаружили, что некоторые слои более чувствительны к ошибкам, таким как повторения и несоответствия семантики. Например, на третьем слое модели, мы обнаружили, что она более напрямую влияет на повторение слов, чем на другие ошибки. Была также выявлена связь между слоями и семантическим биазом, который может отражаться в системе при распознавании звука. ## Значимость Результаты этой работы могут направить исследователей на поиск новых способов улучшения моделей ASR, особенно в сферах, где языковая интерпретируемость и надёжность критичны. Например, в здравоохранении, где любая неточность может привести к нарушению безопасности, или в юридических системах, где точность распознавания речи является критически важной. Благодаря расширению инструментов интерпретируемости, модели ASR могут стать более прозрачными и надежными, что приведёт к улучшению их применения в реальном мире. ## Выводы В данной работе мы доказали, что и

Annotation:

Interpretability methods have recently gained significant attention, particularly in the context of large language models, enabling insights into linguistic representations, error detection, and model behaviors such as hallucinations and repetitions. However, these techniques remain underexplored in automatic speech recognition (ASR), despite their potential to advance both the performance and interpretability of ASR systems. In this work, we adapt and systematically apply established interpreta...

ID: 2508.15882v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing

2025-08-23

Авторы:

Abdul Rehman, Jian-Jun Zhang, Xiaosong Yang

## Контекст Современное звукоречевое процессинг (speech processing) стал ключевым инструментом в различных областях, включая распознавание речи, перевод языков и анализ эмоций. Однако многие существующие подходы требуют значительных ресурсов и подразумевают зависимость от языка, что ограничивает их применение в кросс-лингвистических задачах. Универсальное распознавание фонем (universal phoneme recognition) требует тонкого анализа длинных сегментов речи и часто зависит от языковых особенностей. Это создает проблему для обучения моделей, которые могут обрабатывать речь независимо от языка. Задача CUPE (Contextless Universal Phoneme Encoder) — разработать модель, которая бы захватывала основные фонемные признаки в течение короткого времени, около 120 мс (длины одного фонемы). Эта задача имеет решающее значение для развития кросс-языковых речевых технологий. ## Метод CUPE — это легковесная модель, которая обрабатывает короткие, фиксированные окна речи независимо друг от друга. Она использует технологии машинного обучения для извлечения фонемных признаков в пределах этих окон. Модель оптимизирует свои параметры для захвата основных акустических шаблонов, которые естественны для всех языков. Характеристика CUPE заключается в том, что она не требует языковых меток для обучения, что делает ее универсальной. Также в ней используется архитектура, которая снижает необходимость в длинных зависимых сегментах речи, предлагая эффективное решение для кросс-лингвистического распознавания фонем. ## Результаты В ходе экспериментов CUPE была обучена на различных языках, включая тесты с нулевым сдвигом (zero-shot) на университетской корпусе Университета Калифорнии в Лос-Анджелесе (UCLA Phonetic Corpus). Результаты показали высокую точность распознавания фонем и кросс-лингвистическую общую допустимость. Модель по сравнению с другими подходами имеет меньше параметров, но достигает очень высокого качества распознавания. Это указывает на то, что CUPE может научиться углубленно понимать базовые акустические признаки, независимо от языка речи. ## Значимость Результаты CUPE открывают новые возможности для кросс-языковых технологий распознавания речи. Она может использоваться в различных приложениях, включая перевод речи, анализ эмоций и распознавание речи в условиях низкого качества. CUPE является эффективным инструментом для упрощения процесса обработки речи, снижая требования к ресурсам и увеличивая его доступность для разных языков. Это делает ее полезной в развитии новых моделей и приложений в области звукоречевого процессинга. ## Выводы CUPE доказывает, что универсальное распознавани

Annotation:

Universal phoneme recognition typically requires analyzing long speech segments and language-specific patterns. Many speech processing tasks require pure phoneme representations free from contextual influence, which motivated our development of CUPE - a lightweight model that captures key phoneme features in just 120 milliseconds, about one phoneme's length. CUPE processes short, fixed-width windows independently and, despite fewer parameters than current approaches, achieves competitive cross-l...

ID: 2508.15316v1 cs.CL, cs.LG, eess.AS, I.2.7

arXiv PDF