📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS

2025-08-12

Авторы:

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

## Контекст В современной лингвистике и технологиях обработки речи широко распространены задачи создания синтетической речи, особенно в сфере ассистивных технологий. Несмотря на прогресс в синтезе речи, развитие методов синтеза речи для дизартрических голосов остается вызовом. Заболевания, вызывающие дизартрию, затрудняют нормальную речь, что чрезвычайно важно для помощи в общении через синтетические голоса. В то же время, существующие модели часто не учитывают различия в ситуациях дизартрии, что может привести к ухудшению качества и необходимости расширения моделей для более точного синтеза. ## Метод Мы используем модель F5-TTS для синтеза речи дизартрических голосов, основываясь на данных TORGO dataset. Методология включает эксперименты с анализом три основных аспекта: intelligibility (понятность речи), speaker similarity (близость к оригинальной речи) и prosody preservation (сохранение просодических характеристик). Для уточнения потенциальных необоснованных биасов в синтезированной речи, мы применяем фартерные метрики, такие как Disparate Impact и Parity Difference. Это позволяет проанализировать, насколько модель справляется с сохранением спикерских характеристик и соблюдением просодических паттернов. ## Результаты Наши результаты показали, что F5-TTS показывает высокую точность в создании понятной речи, но существуют существенные ухудшения в близости к образцу речи и сохранении просодических паттернов. Эти результаты подтверждают, что модель демонстрирует биаз в пользу intelligibility, при этом недостаточно уделяется внимания speaker similarity и prosody preservation. Такие результаты показывают, что F5-TTS может сильно зависеть от исходных данных и не всегда достаточно гибка в учении разнообразных дизартрических фонов. ## Значимость Результаты этого исследования имеют большую значимость для развития синтетических моделей в области дизартрического синтеза. Они позволяют понять потенциальные биазы и проблемы в современных моделях. Более того, данные результаты могут помочь в разработке более точных и справедливых моделей для ассистивных технологий, которые учитывают различные уровни дизартрии и помогают в создании более включающих технологий для сложного дизартрического голоса. ## Выводы В результате статьи были выявлены существенные биазы в F5-TTS, особенно в отношении intelligibility. Эти результаты могут послужить основой для будущих исследований в области справедливости в синтезе дизартрической речи. Мы предлагаем расширение модели F5-TTS для учета более широкого спектра дизартрических характеристик, чтобы повысить общую точность и создать более справедливую модель.

Annotation:

Dysarthric speech poses significant challenges in developing assistive technologies, primarily due to the limited availability of data. Recent advances in neural speech synthesis, especially zero-shot voice cloning, facilitate synthetic speech generation for data augmentation; however, they may introduce biases towards dysarthric speech. In this paper, we investigate the effectiveness of state-of-the-art F5-TTS in cloning dysarthric speech using TORGO dataset, focusing on intelligibility, speake...

ID: 2508.05102v2 eess.AS, cs.AI

arXiv PDF

📄 SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec

2025-08-09

Авторы:

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

**Резюме** В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.

Annotation:

Speech codecs serve as a crucial bridge in unifying speech and text language models. Existing codec methods face several challenges in semantic encoding, such as residual paralinguistic information (e.g., timbre, emotion), insufficient semantic completeness, limited reconstruction capability, and lack of support for streaming. To address these challenges, we propose SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that disentangles semantic and paralinguistic information i...

ID: 2508.02849v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS

2025-08-09

Авторы:

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

## КОНТЕКСТ И ПРОБЛЕМАТИКА Неартрическая речь, вызваная неврологическими расстройствами, представляет значительные трудности для разработки помощительных технологий речи. Основной проблемой является ограниченность доступных данных, что существенно ограничивает возможности обучения моделей речи. В последнее время, нейронные модели речевого синтеза, особенно технологии нулевого выстреливания голоса (zero-shot voice cloning), позволяют создавать синтезированную речь для дополнения данных (data augmentation). Однако эти модели могут ввести существенные предубеждения (biases) в отношении неартрической речи, что может повлиять на качество синтезированной речи. В данном исследовании рассматривается проблема несправедливости (unfairness) в синтезированной речи, особенно при анализе речи с различными степенями неартрии. Исследование фокусируется на том, как модели синтеза речи воспроизводят речь людей с неартрией, и на том, как можно оценить качество синтеза с точки зрения интеллектуальности (intelligibility), подобия голоса (speaker similarity) и сохранения просодических особенностей (prosody preservation). Кроме того, в работе проводится анализ возможных смещений (bias) с помощью метрик справедливости, таких как Disparate Impact и Parity Difference, чтобы определить возможные неравенства в синтезированной речи для разных степеней неартрии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В качестве базового метода для синтеза речи используется F5-TTS, современная модель нейронного синтеза речи, которая позволяет реализовывать нулевое выстреливание голоса (zero-shot voice cloning). Метод основывается на использовании датасета TORGO, который содержит записи речи людей с неартрией различной степени тяжести. Модель F5-TTS обучается на этих данных с целью воспроизведения речи, сохраняя как можно больше информации о голосе и просодии. Для оценки биасов (bias) в синтезированной речи используются метрики справедливости, такие как Disparate Impact и Parity Difference. Эти метрики позволяют оценивать, насколько синтезированная речь отражает реальные различия в речи людей с разными степенями неартрии, и выявлять возможные недостатки в модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было использовано датасет TORGO, который включает в себя записи речи людей с неартрией разной степени. Результаты показали, что модель F5-TTS демонстрирует высокую точность в воспроизведении интеллектуальной речи (intelligibility), однако с недостаточной точностью в сохранении голоса говорящего (speaker similarity) и просодии (prosody). Это может указывать на существование биасов в модели, которые предпочли бы сохранение интеллектуальности речи над другими аспектами. Кроме того, использование метрик справедливости показало, что модель F5-TTS может демонстрировать неравенство в отношении разных степеней неартрии, где речь более выразительная (intelligible) людей с более легкой формой неартрии получает более высокий рейтинг качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты этого исследования могут быть использованы для разработки более справедливых и инклюзивных технологий речевого синтеза, особенно для людей с неартрией. Особенно важно обеспечить, чтобы синтезированная речь была доступна и понятна для всех пользователей, независимо от степени неартрии. Информация, полученная из этого исследования, может помочь в создании моделей, которые будут учитывать различные аспекты речи, включая интеллектуальность, голос и просодию, чтобы создавать более качественную и справедливую речь. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что модель F5-TTS имеет сильный биас в отношении интеллектуальности речи при синтезировании речи людей с неартрией. Это может быть важно для будущих исследований, особенно в контексте разработки более справедливых моделей речи. Будущие исследования могут фокусироваться на том, как улучшить модели речи так, чтобы они были более справедливыми и учитывали различные аспекты речи, не только интеллектуальность, но и голос и просодию. Кроме того, можно рассмотреть возможность использования более разнообразных данных для обучения моделей, чтобы снизить возможное влияние биасов.

Annotation:

ID: 2508.05102v1 eess.AS, cs.AI

arXiv PDF

📄 Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

2025-08-09

Авторы:

Seraphina Fong, Marco Matassoni, Alessio Brutti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое распознавание речи (АРР) в низкоресурсных языках является серьезной вызовом для современных исследований. Несмотря на то, что технологии глубокого обучения достигли высоких результатов в обработке речи для языков с большим объемом доступных данных, применение этих подходов к низкоресурсным языкам остается затрудненным. Основными препятствиями являются ограниченность доступных данных для обучения и отсутствие достаточного количества аннотированных ресурсов. В последнее время Large Language Models (LLMs) показали высокую эффективность в различных задачах обработки речи, включая задачи распознавания, если речь о языках с большим объемом данных. Однако для низкоресурсных языков эффективность LLMs еще не была полностью изучена. Задача адаптации LLMs для распознавания речи в условиях ограниченных данных требует новых подходов и методологий. В данной работе авторы фокусируются на исследовании Speech LLMs – моделей, которые объединяют речевые энкодеры с языковыми моделями с помощью тренируемого легковесного проектора. Особое внимание уделяется оценке объема необходимых данных для обучения и влиянию предварительного обучения на языках с большим ресурсом. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы распознавания речи в низкоресурсных языках авторы предлагают использовать фреймворк SLAM-ASR, который сочетает речевой энкодер с языковой моделью через тренируемый легковесный проектор. Этот подход позволяет эффективно интегрировать речевые и языковые модели, оптимизируя процесс распознавания речи. Архитектура SLAM-ASR включает в себя следующие компоненты: 1. **Речевой энкодер**: Используется для извлечения фич из речевых сигналов. 2. **Легковесный проектор**: Позволяет соединить речевой энкодер с языковой моделью, обеспечивая эффективную передачу информации. 3. **Языковая модель (LLM)**: Используется для понимания и обработки речи на высокоуровневом языковом уровне. Авторы также исследуют влияние предварительного обучения проектора на языках с большим ресурсом. Они используют мультилингвальные модели, такие как EuroLLM и Salamandra, в сочетании с Whisper-large-v3-turbo для оценки эффективности этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности предложенного метода. Они используют несколько публичных бенчмарков для оценки качества распознавания речи в низкоресурсных языках. В экспериментах исследуются следующие аспекты: - **Объем данных для обучения**: Авторы оценивают, какой объем данных необходим для достижения результатов, соответствующих производительности модели Whisper. - **Предварительное обучение на высокоресурсных языках**: Исследуется влияние предварительного обучения проектора на языках с большим ресурсом на качество распознавания в низкоресурсных языках. Результаты экспериментов показывают, что предварительное обучение проектора на высокоресурсных языках значительно снижает влияние дефицита данных, особенно при использовании малых объемов данных для обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данная работа имеет значительное практическое значение для развития технологий распознавания речи в низкоресурсных языках. Использование Speech LLMs с предварительным обучением на высокоресурсных языках может помочь преодолеть проблемы ограниченных данных, что делает эту технологию более доступной для широкого круга приложений. Преимущества данного подхода включают: - **Улучшение качества распознавания речи**: Эффективность метода позволяет достичь высоких результатов даже при ограниченном объеме данных. - **Применимость к мультилингвальным сценариям**: Использование мультилингвальных моделей, таких как EuroLLM и Salamandra, позволяет расширить область применения данного подхода на многоязычных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области распознавания речи в низкоресурсных языках. Использование фреймворка SLAM-ASR и предварительного обучения проектора на высокоресурсных языках показало высокую эффективность в условиях ограниченных данных. Будущие исследования могут фокусироваться на дальнейшей оптимизации архитектуры моделей, а также на разработке новых методов для улучшения качества распознавания речи в мультилингвальных сценариях. Также важно продолжать исследования в области адаптации LLMs для распознавания речи в условиях дата-скейпинга и мультилингвизма.

Annotation:

Large language models (LLMs) have demonstrated potential in handling spoken inputs for high-resource languages, reaching state-of-the-art performance in various tasks. However, their applicability is still less explored in low-resource settings. This work investigates the use of Speech LLMs for low-resource Automatic Speech Recognition using the SLAM-ASR framework, where a trainable lightweight projector connects a speech encoder and a LLM. Firstly, we assess training data volume requirements to...

ID: 2508.05149v1 eess.AS, cs.AI, cs.CL

arXiv PDF

Показано 71 - 74 из 74 записей