📚 Саммари научных статей из arXiv

Найдено 83 результатов по запросу 'cs.CL, cs.SD' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Building Tailored Speech Recognizers for Japanese Speaking Assessment

2025-09-27

Авторы:

Yotaro Kubo, Richard Sproat, Chihiro Taguchi, Llion Jones

#### Контекст В современной лингвистике использование систем распознавания речи приобретает важное значение, особенно при работе с языками, требующими точного определения интонационных и фонетических особенностей. Японский язык, несмотря на богатство ресурсов, представляет особые сложности в области распознавания речи из-за отсутствия достаточного количества данных для точного определения звуковых и интонационных маркеров (акцентов). Это приводит к увеличению ошибок в распознавании, особенно при использовании глобальных моделей, не учитывающих конкретные характеристики японского языка. Целью данного исследования является разработка более точных систем распознавания речи, которые могут обрабатывать задачи анализа японского произношения, включая интонации и фонетические маркеры. #### Метод Для улучшения точности распознавания речи, разработчики предложили два основных метода. Во-первых, **многозадачное обучение** (multitask learning), которое вводит дополнительные функции потерь для оценки ортографических текстовых меток и питовых паттернов входного сигнала. Это позволяет использовать данные, имеющие только ортографические метки, для обучения модели. Во-вторых, **функциональная свёртка** (fusion) двух оценщиков: один работает над алфавитной последовательностью фонемов, а другой — над последовательностью текстовых токенов. Для объединения этих оценок разработана алгоритмическая модель на основе трансдукторного правила (finite-state transducer). Эти методы стремятся улучшить точность распознавания звуков и интонаций, особенно в условиях ограниченных данных. #### Результаты Исследование проводилось на основе данных японских речевых ассесментов (CSJ core evaluation sets). Был проанализирован эффект применения многозадачного обучения и свёртки данных. Результаты показали существенное снижение ошибок распознавания звуков (mora-label error rates) — от 12.3% до 7.1%. Таким образом, многозадачное обучение и функциональная свёртка данных доказали свою эффективность в решении проблем с нехваткой данных в специализированных задачах распознавания японского произношения. #### Значимость Результаты исследования могут быть применены в различных областях, включая лингвистические задачи, автоматизацию преподавания языка, а также развитие новых технологий распознавания речи. Многозадачное обучение и функциональная свёртка данных демонстрируют свою преимущественность перед использованием общих моделей распознавания речи. Эти технологии могут стать базой для повышения точности распознавания речи, не только на японском языке, но и на других языках с

Annotation:

This paper presents methods for building speech recognizers tailored for Japanese speaking assessment tasks. Specifically, we build a speech recognizer that outputs phonemic labels with accent markers. Although Japanese is resource-rich, there is only a small amount of data for training models to produce accurate phonemic transcriptions that include accent marks. We propose two methods to mitigate data sparsity. First, a multitask training scheme introduces auxiliary loss functions to estimate o...

ID: 2509.20655v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

2025-09-27

Авторы:

Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

## Контекст В последние годы растет интерес к области звукового анализа и распознавания эмоций в речевом дорожке. Это связано с ростом применения речевых технологий в различных сферах, таких как интерфейсы с произносимым контролем, психологический мониторинг и мобильные приложения. Однако существует значимая проблема — сильная зависимость речевых эмоциональных моделей от домена. Это означает, что модели, обученные на одном типе данных, часто не могут достичь высокого качества работы на других. Это проблема особенно актуальна при использовании больших моделей звука и языка (LALMs), таких как XLM-V, которые показывают сильную zero-shot способность в серьезных задачах, но не всегда могут хорошо применяться в реальных условиях. Это ограничение вызвано тем, что LALMs часто доступны только через API, а исходные данные, необходимые для доступа к этим моделям, закрыты. Наша мотивация заключается в поиске решения для этих проблем, особенно в ситуациях, когда source data unavailable и работа в cross-domain сценариях. ## Метод Предлагаемая методология MI-Fuse (Mutual-Information Fused Learning) представляет собой расширенную фреймворк для деноизвания лейблов в условиях неучитываемых зонда. Мы используем две модели: главную LALM-Teacher и вспомогательную SER-classifier. Обе модели обучаются на source domain, но только вспомогательная модель используется для предсказаний в target domain. Для стабилизации обучения используется экспоненциальное сглаживание для moving average teacher. Ключевая идея заключается в том, чтобы получать множество стохатических предсказаний от каждой модели и складывать их с использованием мутуальной информации в качестве веса для каждого. Это позволяет фокусироваться на более уверенных прогнозах, уменьшая влияние шума и неверных предсказаний. Такой подход обеспечивает более точный и стабильный вывод в сценариях cross-domain. ## Результаты Мы проводили эксперименты с MI-Fuse на трех публичных датасетах эмоционального распознавания, включая IEMOCAP, MSP-IMPROV и CMU-MOSEI. Для каждого теста производилось по шести переносам кросс-доменных моделей. Результаты показали, что студентская модель, обученная с помощью MI-Fuse, превосходит LALM-Teacher и самые сильные базовые модели на трёх тестовых датасетах. В итоге, студентская модель показала улучшение до 3.9% по отношению к сильнейшему базовому решению, что демонстрирует эффективность этого подхода в решении проблем условий cross-domain. ## Значимость Предлагаемый подход MI-Fuse имеет широкие применения в сферах, где требуется эмоциональный анализ речи с помощью LALMs, но нет доступа к source data. Например, он может применяться в системах мониторинга психического состояния, мобильных прило

Annotation:

Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label ...

ID: 2509.20706v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs

2025-09-26

Авторы:

Pei Zhang, Andong Chen, Xi Chen, Baosong Yang, Derek F. Wong, Fei Huang

## Контекст В последние годы наблюдается быстрое развитие технологий обработки речи, включая задачи спикера идентификации, транскрибирования речи и перевод речи. Эти задачи важны для развития многоязычных систем, но становятся сложнее при работе с многоязычным контентом. Основной проблемой является необходимость выравнивания пространственных представлений речи и текста. Традиционные подходы, такие как заморозка параметров многоязычных моделей и обучение отдельных слоев, не полностью решают эту проблему. Требуется новый подход, который эффективно объединит возможности моделей под названием Speech Large Models (SLMs), позволяющих обрабатывать входные данные в виде звука, и существующих моделей текстового понимания. Наша исследовательская группа предлагает Progressive Alignment Representation Training (PART), чтобы улучшить многоязычное выравнивание речи и текста. ## Метод PART — это новый многостадийный и многозадачный подход для обучения представлений речи. Он разделяет обучение на два этапа: в первом этапе в рамках каждого языка происходит выравнивание речи и текста внутри этого языка, а во втором этапе — выравнивание речи между языками. Это позволяет модели лучше различать языковые особенности внутри каждого языка и признаки, которые являются общими для всех языков. Мы также включаем динамическую активацию параметров моделей текстового понимания, чтобы модель могла использовать знания из моделей текста для улучшения обработки речи. Архитектура PART включает в себя многоуровневые энкодеры для речи и текста, а также динамическую систему активации, которая используется только в конкретных этапах обучения. ## Результаты Мы проводили эксперименты на четырёх многоязычных датасетах: CommonVoice 15, Fleurs, Wenetspeech и CoVoST2. Наши результаты показывают, что PART выполняет значительно лучше существующих подходов по многим показателям, таким как точность распознавания речи и качество перевода. Мы также провели анализ того, как PART улучшает выравнивание речи и текста в разных сценариях, включая разные языки и размеры данных. Эти результаты подтверждают, что PART эффективно решает проблему выравнивания речи и текста в многоязычных условиях. ## Значимость PART может быть применен в различных областях, включая системы перевода речи, синтез речи и анализ речи. Этот подход делает SLM-модели более эффективными и универсальными в многоязычных условиях. Одним из основных преимуществ PART является то, что он может извлекать более точные представления речи и текста, снижая ошибки в многоязычных системах. Мы также ожидаем, что PART может повлиять на развитие технологий машинного обучения, которые используются в раз

Annotation:

Large language models (LLMs) have expanded from text to speech, giving rise to Speech Large Models (SLMs) that support recognition, translation, and synthesis. A key challenge is aligning speech and text representations, which becomes harder in multilingual settings. Existing methods often freeze LLM parameters and train encoders on multilingual data, but this forces cross-language convergence and limits performance. We introduce Progressive Alignment Representation Training (PART), a multi-stag...

ID: 2509.19745v1 cs.CL, cs.SD

arXiv PDF

📄 Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation

2025-09-26

Авторы:

Roy Fejgin, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Ryan Langman Jaehyeon Kim, Subhankar Ghosh, Shehzeen Hussain, Jason Li

## Контекст Speech generation становится все более важной областью исследований в области глубокого обучения, особенно в связи с развитием large language models (LLMs). Одна из основных проблем в этой области — это проблема эффективности при генерации речи, которая связана с различиями между текстовыми токенами и дискретными акустическими кодовыми буферами, используемыми в LLMs. Эти кодовые буферы делятся на несколько наборов (multicodebook structure), что затрудняет процесс параллельной генерации. Несмотря на то, что такие модели позволяют достигать высокой производительности, они часто страдают от уменьшения точности и качества звука. Это влечет за собой необходимость разработки более эффективных стратегий для решения этих проблем, что и стало мотивацией для данного исследования. ## Метод В данном работе предлагается использовать архитектуру Frame-Stacked Local Transformers, которая состоит из двух основных элементов. Первый — это autoregressive transformer, который позволяет предсказывать несколько кодовых буферов одновременно, чтобы уменьшить время генерации. Второй — это MaskGIT-based transformer, который использует маскированную предсказательную модель, чтобы улучшить точность и качество звука. Более того, в работе представлена идея frame stacking, где подряд идущие фреймы генерируются одновременно, что позволяет эффективно использовать ресурсы. Метод также включает в себя исследование различных стратегий decoding, таких как autoregressive и iterative, чтобы понять, какие из них лучше подходят для различных задач, где нужно выбирать между скоростью и качеством. ## Результаты Для проверки эффективности предлагаемой модели, проведено ряд экспериментов с разными наборами данных. Были сравнены различные варианты decoding, включая autoregressive и iterative sampling. Результаты показали, что Frame-Stacked Local Transformers позволяют достигать высокой скорости генерации, не утрачивая качества звука. Также были проанализированы точность и качество звука, полученных при использовании разных моделей, которые показали, что MaskGIT-based transformer дает лучшие результаты в случае необходимости повысить качество. Исследования также показали, что frame stacking может существенно увеличить производительность, не снижая качества. ## Значимость Предлагаемая модель имеет большой потенциал в сфере генерации речи, особенно в сетях, где необходима высокая производительность и качество звука. Модель может быть применена в различных областях, включая синтез речи, генерацию голосов для видео и генерацию речи в реальном времени. Одним из основных преимуществ является то, что Frame-Stacked Local Transformers эффективнее существующих моделей, не требуя того же уровня ресурсов. Это может позволить применять модель в сценариях, где доступ к высокопроизводительной технике

Annotation:

Speech generation models based on large language models (LLMs) typically operate on discrete acoustic codes, which differ fundamentally from text tokens due to their multicodebook structure. At each timestep, models must predict N codebook entries jointly, introducing dependencies that challenge simple parallel prediction approaches. Parallel prediction assumes independence among codebooks, yielding efficient decoding but often at the cost of reduced fidelity. To address this, hierarchical strat...

ID: 2509.19592v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling

2025-09-25

Авторы:

Yuke Si, Runyan Yang, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang

#### Контекст Одной из основных тенденций в развитии искусственного интеллекта является развитие универсальных языковых моделей, которые могут обрабатывать различные типы задач в рамках одной архитектуры. Это относится и к специальным моделям, таким как универсальные языковые модели для речи (Speech Language Models, SLM). Однако задачи, такие как автоматическое распознавание речи (ASR) и распознавание эмоций в речи (Speech Emotion Recognition, SER), имеют различные специфики. ASR стремится извлечь значимую информацию из речи, концентрируясь на языковом содержании, в то время как SER включает в себя анализ параллингвистических сигналов, таких как гармония и эмоциональный тон. Эти различия порождают проблемы в традиционных моделях, особенно при ограниченных объемах данных. Наша модель HarmoniFuse была разработана для решения этих проблем, ориентируясь на подход к совместной обработке различных задач распознавания речи. #### Метод HarmoniFuse представляет собой современный подход к решению проблемы одновременной обработки различных задач распознавания речи, основанный на компонентном селективе и умении адаптироваться к предметной области. Основные компоненты архитектуры HarmoniFuse: 1. **Gated Speech Encoder** – это модуль, отвечающий за выделение и фильтрацию значимых акустических признаков, относящихся к конкретной задаче. Он способен отдельно обрабатывать признаки, необходимые для ASR и SER. 2. **Prompt-Adaptive Dynamic Fusion Module** – это модуль, который анализирует характеристики задачи и динамически комбинирует преобразовательные слои, чтобы создать оптимальную структуру модели для каждой задачи. 3. **Batch-Interleaved Training Strategy** – это стратегия тренировки, позволяющая использовать разные данные для ASR и SER, не требуя их слияния или объединения в рамках обучения. #### Результаты Мы провели эксперименты с различными данными, в том числе датасетом LibriSpeech и IEMOCAP, чтобы проверить эффективность HarmoniFuse. Наша модель показала значительное улучшение как в задачах распознавания речи (ASR), так и в задачах распознавания эмоций в речи (SER). Эти результаты были достигнуты благодаря тому, что HarmoniFuse может эффективно сочетать необходимые для каждой задачи признаки, уменьшая влияние межзадачных интерференций и максимизируя использованные ресурсы. #### Значимость HarmoniFuse представляет собой значительный шаг в области мультизадачных моделей для распознавания речи. Он имеет круглосуточное применение в различных сферах, включая здравоохранение, обслуживание клиентов, анализ эмоций в речи и другие. Его основные преимущества заключаются в улучшении точности распознавания, эффективном использовании ресурсов и поддержке различных задач в рамках одной модели. Бу

Annotation:

Recent advances in large language models have facilitated the development of unified speech language models (SLMs) capable of supporting multiple speech tasks within a shared architecture. However, tasks such as automatic speech recognition (ASR) and speech emotion recognition (SER) rely on distinct types of information: ASR primarily depends on linguistic content, whereas SER requires the integration of both linguistic and paralinguistic cues. Existing multitask SLMs typically adopt naive param...

ID: 2509.18570v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation

2025-09-25

Авторы:

Runyan Yang, Yuke Si, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang

## Контекст Значительные успехи в области моделей звука, таких как распознавание речи (ASR) и распознавание эмоций, были достигнуты благодаря развитию больших звуковых моделей. Однако эти модели часто сталкиваются с проблемами при выполнении задач, требующих сложного рассуждения. Одним из основных ограничений является модальный разрыв между звуковыми и текстовыми моделями, что приводит к неэффективности в передаче логических и рассужденных знаний. Более того, отсутствие структурированной получаемой накачки делает сложной задачу улучшения возможностей модели звука в рассуждениях. Мы предлагаем рамку для знаний, позволяющую передать знания с текстовых моделей на звуковые модели, обеспечив при этом сохранение их акустических способностей. ## Метод Мы предлагаем метод, объединяющий два ключевых аспекта: **source-wise distillation** и **layer-wise distillation**. **Source-wise distillation** интегрирует обучение с учителем на тексте и акустическом учителе, чтобы предоставить моделей звука полноту модальных сигналов. **Layer-wise distillation** направляет знания с учителя на соответствующие слои в модели звука, чтобы оптимизировать эффективность передачи сигналов. Эта двухмерная стратегия позволяет тщательно контролировать процесс передачи знаний, позволяя модели звука соединить символические рассуждения с акустическими сигналами. ## Результаты Мы провели эксперименты на стандартных данных, подтвердив выигрыш в передаче знаний с текстовых моделей на модели звука в задачах, таких как рассуждение по тексту и распознавание эмоций. Наши эксперименты показали, что наш метод позволяет модели звука развивать логические способности, сохранив акустические способности, что демонстрирует эффективность нашего подхода в передаче знаний в моделях звука. ## Значимость Предлагаемая рамка может использоваться в различных областях, таких как звуковое распознавание, рассуждение по тексту и распознавание эмоций. Наш подход улучшает эффективность моделей звука, позволяя им выполнять сложные задачи сложного рассуждения. Это имеет потенциал для расширения возможностей моделей звука в различных приложениях, таких как медицинские приложения, обнаружение эмоций и живое переключение между символическими и акустическими моделями. ## Выводы Мы представили рамку для знаний, позволяющую передать знания с текстовых моделей на модели звука, обеспечивая эффективность передачи знаний и сохранение акустических способностей. Этот метод демонстрирует улучшение возможностей моделей звука в сложных задачах рассуждения, и мы видим возможности для его развития и применения в будущих иссле

Annotation:

While large audio language models excel at tasks like ASR and emotion recognition, they still struggle with complex reasoning due to the modality gap between audio and text as well as the lack of structured intermediate supervision. To address this, we propose a unified knowledge distillation framework to transfer reasoning capabilities from a high-capacity textual teacher model to a student audio models while preserving its acoustic competence. Our method introduces two key dimensions: source-w...

ID: 2509.18579v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR

2025-09-25

Авторы:

Pattara Tipaksorn, Sumonmas Thatphithakkul, Vataya Chunwijitra, Kwanchiva Thangthai

## Контекст Удаленная работа и удаленное обучение стали существенной частью современной работы и образования, особенно в период после COVID-19. Однако удаленные или замедленные взаимодействия часто становятся менее эффективными, чем лицом к лицу. Это связано с тем, что дистанционные методы часто не учитывают важность звука в общении. До этого момента не было доступных широкого распространения звуковых данных, отражающих реальные удаленные взаимодействия. LOTUSDIS, новый трехголосый мульти-микрофонный трейнинг-тестовый корпус, был создан в целях оптимизации ASR для тайского языка в удаленных средах. Набор данных LOTUSDIS представляет собой реальные диалоги, накопленные в среде, которая является характерной для непринужденных удаленных бесед. ## Метод LOTUSDIS состоит из 114 часов реальных, непринужденных диалогов, записанных на 9 устройств в 6 разных микрофонных типах. Звук был записан с различных расстояний от 0,12 м до 10 м, чтобы передать реальные эффекты реверберации и шума. Участники были размещены в одной комнате, чтобы создать реалистичные удаленные условия общения. Данные были разбиты на стандартные наборы для обучения, валидации и тестирования. Для оценки корпуса была разработана базовая модель, основанная на разных версиях Whisper, оцениваясь в нулевых и тюнинговых условиях. ## Результаты Эксперименты показали, что off-the-shelf модели Whisper имели существенную ухудшение производительности при удалении, что confirme несоответствие между данными обучения и реальной дистанционной речи. Данные LOTUSDIS были использованы для тюнинга моделей, что привело к значительному улучшению: версия Whisper на тайском языке уменьшила ASR WER с 64,3 до 38,3, а для дистанционного теста WER уменьшился с 81,6 до 49,5, особенно на более отдаленных микрофонах. Эти результаты демонстрируют значительное влияние разнообразия дистанций в тренировочных данных для улучшения удаленной ASR. ## Значимость LOTUSDIS широко применим в области распознавания речи в удаленных средах, особенно для тайского языка. Он предоставляет реалистичные данные для тренировки и тестирования ASR, что позволяет создавать более точные и устойчивые системы распознавания речи. Это корпус также имеет потенциал для использования в других языках, улучшая удаленные системы взаимодействия в целом. ## Выводы LOTUSDIS является первым трехголосым мульти-микрофонным корпусом для удаленных диалогов на тайском языке. Он продемонстрировал эффективность для улучшения ASR-систем в удаленных условиях. Будущие исследования будут сфокусированы на расширении набора данных для дру

Annotation:

We present LOTUSDIS, a publicly available Thai meeting corpus designed to advance far-field conversational ASR. The dataset comprises 114 hours of spontaneous, unscripted dialogue collected in 15-20 minute sessions with three participants, where overlapping speech is frequent and natural. Speech was recorded simultaneously by nine independent single-channel devices spanning six microphone types at distances from 0.12 m to 10 m, preserving the authentic effects of reverberation, noise, and device...

ID: 2509.18722v1 cs.CL, cs.SD

arXiv PDF

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

2025-09-25

Авторы:

Seungyoun Shin, Dongha Ahn, Jiwoo Kim, Sungwook Jeon

## Контекст Текстовое воспроизведение речи (Text-to-Speech, TTS) — это технология, позволяющая конвертировать текстовые данные в естественный голосовой вывод. Одной из ключевых проблем в этой области является создание естественной и естественного звучания речи, включая просодические свойства, такие как интонация, ритм и тембр. Несмотря на улучшение TTS-систем, не удается достичь желаемого уровня просодической привлекательности без явного контроля и оценки просодических параметров. Это вызывает значительные ограничения в широком развитии технологии, особенно в сферах, где просодические свойства ключевым образом влияют на качество звука и качество социальной интеракции. ## Метод Наша методология основывается на **Direct Preference Optimization (DPO)**, которая использует небольшое количество человеческих предпочтений для поддержки естественности просодических свойств в TTS. Мы применяем GRPO (Group Relative Policy Optimization) для оптимизации просодических факторов, но в условиях отсутствия явной награды для просодики, полагаемся на взаимодействие с человеком для ручного определения желаемых просодических характеристик. Это позволяет нам минимизировать ошибки и достичь более естественного звучания в TTS. Мы также вводим регуляризацию для стабилизации тренировки, чтобы избежать ложных минимумов. ## Результаты Мы проверяли нашу модель на **KoCC-TTS**, датасете, состоящем из реальных записей голосовых интеракций из корпоративных центров обработки обращений. Наши эксперименты показали, что DPO позволяет получить наивысший уровень желаемости пользователя (ELO) и сравнительно низкие значения CER (Character Error Rate). В сравнении с GRPO и сильными коммерческими алгоритмами, метод DPO демонстрирует значительные улучшения в просодической привлекательности, не прибегая к громоздким или нестабильным методам. Эти результаты указывают на то, что человеческие предпочтения могут стать эффективным инструментом для повышения качества голосных моделей. ## Значимость Наш метод имеет широкое применение в сфере естественного звучания голоса, в частности для TTS в задачах обработки обращений, таск-ориентированных диалогов и автоматических систем телефонной связи. Он также позволяет снизить необходимый объем ручной работы над ручной оценкой просодических свойств, что делает технологию более эффективной и доступной для разработчиков. Будущие исследования будут направлены на улучшение методов оценки естественности просодики и расширение применения наших результатов к другим языкам и стилюм речи. ## Выводы Мы доказали, что **Direct Preference Optimization** является эффективным способом обучения TTS с естественным просодическим звучанием. Наши ре

Annotation:

Recent work reports gains in neural text-to-speech (TTS) with Group Relative Policy Optimization (GRPO). However, in the absence of a verifiable reward for \textit{prosody}, GRPO trained on transcription-oriented signals (CER/NLL) lowers error rates yet collapses prosody into monotone, unnatural speech; adding speaker-similarity further destabilizes training and degrades CER. We address this with an \textit{iterative Direct Preference Optimization (DPO)} scheme that uses only a few hundred human...

ID: 2509.18531v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

2025-09-24

Авторы:

Yuhang Dai, Ziyu Zhang, Shuai Wang, Longhao Li, Zhao Guo, Tianlun Zuo, Shuiyuan Wang, Hongfei Xue, Chengyou Wang, Qing Wang, Xin Xu, Hui Bu, Jie Li, Jian Kang, Binbin Zhang, Lei Xie

#### Контекст Диалектный говор, включая Sichuanese (хаккайский), является важной частью китайского языка, но часто лишается должного внимания в исследованиях по звуковой технологии. Это обусловлено существующими проблемами: недостаток больших, открытых данных, ограниченная доступность ресурсов и слабая формальная поддержка в области звукового моделирования. Эти факторы приводят к ограниченному развитию технологий для диалектного звукового моделирования и придают особое значение мотивации для создания полного корпуса, облегчающего исследования в этой области. #### Метод WenetSpeech-Chuan разработан с использованием **Chuan-Pipeline** — комплексной системы для обработки данных диалектного говора. Эта система обеспечивает полный цикл подготовки данных, включая сбор, очистку, аннотацию и валидацию. В качестве результата был получен корпус в размере 10,000 часов, содержащий разнообразные аудиозаписи и многоуровневые аннотации для слов, фонем, дикторов и других сущностей. Были также разработаны ряд тестовых наборов данных (WenetSpeech-Chuan-Eval) для точного оценивания результатов ASR (распознавания речи) и TTS (синтеза речи). #### Результаты Эксперименты показали, что модели, обученные на WenetSpeech-Chuan, достигли статуса лучших среди открытых решений, показав результаты, которые приближаются к результатам коммерческих систем. Авторы также продемонстрировали, что данный корпус позволяет значительно улучшить базовые характеристики моделей ASR и TTS, снизив порог вхождения для исследователей и облегчив процесс разработки технологий для диалектного звукового моделирования. #### Значимость WenetSpeech-Chuan может быть применен в разработке новых технологий для распознавания речи и синтеза речи, нацеленных на диалектные языки. Он способствует развитию AI с принципами эквити и сокращением разрывов в развитии технологий для разных региональных диалектов. В будущем, корпус может применяться в других районах Китая для повышения доступности звуковых моделей для других диалектов. #### Выводы WenetSpeech-Chuan является крупнейшим открытым корпусом для Sichuanese, который способствует созданию более честных и эффективных звуковых моделей для диалектов. Будущие исследования будут сфокусированы на расширении этого корпуса для других диалектов, а также на развитии глобальных технологий для диалектного звукового моделирования.

Annotation:

The scarcity of large-scale, open-source data for dialects severely hinders progress in speech technology, a challenge particularly acute for the widely spoken Sichuanese dialects of Chinese. To address this critical gap, we introduce WenetSpeech-Chuan, a 10,000-hour, richly annotated corpus constructed using our novel Chuan-Pipeline, a complete data processing framework for dialectal speech. To facilitate rigorous evaluation and demonstrate the corpus's effectiveness, we also release high-quali...

ID: 2509.18004v1 cs.CL, cs.SD

arXiv PDF

📄 Speech Language Models for Under-Represented Languages: Insights from Wolof

2025-09-23

Авторы:

Yaya Sy, Dioula Doucouré, Christophe Cerisara, Irina Illina

## Контекст В последние годы рост интереса к развитию языковых моделей для недостаточно представленных языков стал очевидным. Одной из таких языков является Волоф, который говорят в Западной Африке. Несмотря на свою важность для местного населения, Волоф не имеет достаточного количества ресурсов для обучения языковых моделей, что приводит к существующим проблемам в доступности и качестве технологий на этом языке. Это мотивирует разработку моделей, которые могут улучшить обработку слов и фраз на Волофе, включая аспекты, такие как транскрипция речи и перевод. Эта работа сосредоточена на моделировании речи и текста на Волофе, чтобы помочь улучшить доступ к технологиям на этом языке. ## Метод Для создания модели речи на Волофе использовались данные, собранные в ходе специального сбора слов и фраз на этом языке. Данные были обработаны с помощью специальной архитектуры модели, которая использовалась для обучения модели речи. Модель была обучена на основе синтетических данных, а затем протестирована на реальных звуковых сигналах на Волофе. Для обучения модели речи использовались методы нейронного машинного обучения, в том числе продолжающийся предварительный перенос данных (continued pretraining), который позволил модели изучить языковые модели на большом объеме естественных данных. Это позволило улучшить качество модели, особенно в области распознавания речи и перевода текста. ## Результаты После проведения экспериментов было получено, что модель речи на Волофе демонстрирует значительное улучшение в распознавании звуков и перевода текста в сравнении с базовой моделью. Модель, обученная на данных Волофа, показала лучшие результаты по сравнению с общедоступными моделями, которые не были адаптированы для этого языка. Это указывает на то, что продолжительное обучение модели на большом объеме естественных данных помогает улучшить качество распознавания речи и перевода. Также было проверено, что модель может выполнять более сложные задачи, такие как многошаговый цепочный перевод текста, что демонстрирует её мощь и гибкость. ## Значимость Эта модель может иметь значительное значение для сообществ, которые говорят на Волофе, так как она позволяет улучшить доступ к Технологиям Натурального Языкового Процессинга. Это может помочь в развитии образовательных и систем здравоохранения, а также других областях, где необходимо использование языка Волоф. Модель также может иметь будущие приложения в области перевода текста на Волофе, что поможет снизить барьеры для местных граждан, которые не всегда могут общаться на других языках. ## Выводы В ходе этого исследования было доказано, что модель речи на В

Annotation:

We present our journey in training a speech language model for Wolof, an underrepresented language spoken in West Africa, and share key insights. We first emphasize the importance of collecting large-scale, spontaneous, high-quality speech data, and show that continued pretraining HuBERT on this dataset outperforms both the base model and African-centric models on ASR. We then integrate this speech encoder into a Wolof LLM to train the first Speech LLM for this language, extending its capabiliti...

ID: 2509.15362v1 cs.CL, cs.SD, eess.AS

arXiv PDF

1
2
3
4
5
6
7
8
9

Показано 41 - 50 из 83 записей