Finding My Voice: Generative Reconstruction of Disordered Speech for Automated Clinical Evaluation

2509.19231v1 cs.SD, cs.AI, cs.CL 2025-09-25

Авторы:

Karen Rosero, Eunjung Yeo, David R. Mortensen, Cortney Van't Slot, Rami R. Hallac, Carlos Busso

Резюме на русском

## Контекст Область исследования генерируемой речи, особенно в сфере медицины, набирает все большую популярность. Многие методы фокусируются на звуковых и правописаных ошибках, которые могут возникать у детей с языковыми расстройствами. Однако существуют лишь немногие решения, которые сочетают безупречную звуковую реконструкцию с сохранением идентичности речи. Такая проблема особенно актуальна для детей с звуковыми расстройствами (SSD), которые требуют индивидуального подхода в клинической практике. Эта статья предлагает ChiReSSD — уникальную систему, которая не только корректурует звуковую речь, но и сохраняет идентичность речи ребенка. ## Метод ChiReSSD — это расширенная модель стилевой генерируемой речи (TTS), которая нацелена на корректуру звуков у детей с SSD. Она использует два основных блока: фаза анализа и фаза реконструкции. В первой фазе анализируется голос ребенка с использованием методов питания вперед и обучения классификатора. Во второй фазе эта информация используется для генерирования звукового сигнала, который сохраняет идентичность речи ребенка, но исправляет звуковые ошибки. Модель учится с помощью нейронных сетей, которые обучаются на большом объеме данных, включая голоса детей с SSD. ## Результаты Для оценки ChiReSSD была использована база данных STAR, содержащая записи голосов детей с SSD. Эксперименты показали, что модель существенно повысила лексическую точность и сохранила идентичность речи ребенка. Также был проведен автоматический предиктивный анализ, в котором модель сравнительно точно определяла звуки и консонанты в исходных и реконструированных записях. На данных TORGO была проверена общеупотребительность модели на взрослых с дисартической речью, и результаты также проявили высокую точность. ## Значимость ChiReSSD предлагает широкие приложения в клинической практике, в том числе в диагностике и лечении звуковых расстройств. Она может существенно снизить трудозатраты для медицинских экспертов, автоматизируя процесс анализа и корректуры речи. Более того, модель эффективно работает не только с детскими голосами, но и с взрослыми, что увеличивает ее полезность в разнообразных клинических ситуациях. ## Выводы Результаты экспериментов показывают, что ChiReSSD является эффективным инструментом для корректуры звуков и сохранения идентичности речи. Будущие исследования будут сфокусированы на расширении баз данных и улучшении модели для различных клинических задач. Это может привести к радикальному улучшению клинического анализа речи и уменьшению трудозатрат для эксп

Abstract

We present ChiReSSD, a speech reconstruction framework that preserves children speaker's identity while suppressing mispronunciations. Unlike prior approaches trained on healthy adult speech, ChiReSSD adapts to the voices of children with speech sound disorders (SSD), with particular emphasis on pitch and prosody. We evaluate our method on the STAR dataset and report substantial improvements in lexical accuracy and speaker identity preservation. Furthermore, we automatically predict the phonetic content in the original and reconstructed pairs, where the proportion of corrected consonants is comparable to the percentage of correct consonants (PCC), a clinical speech assessment metric. Our experiments show Pearson correlation of 0.63 between automatic and human expert annotations, highlighting the potential to reduce the manual transcription burden. In addition, experiments on the TORGO dataset demonstrate effective generalization for reconstructing adult dysarthric speech. Our results indicate that disentangled, style-based TTS reconstruction can provide identity-preserving speech across diverse clinical populations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Finding My Voice: Generative Reconstruction of Disordered Speech for Automated Clinical Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Story2MIDI: Emotionally Aligned Music Generation from Text

Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learni...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Spatial Audio Motion Understanding and Reasoning

Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems

Навигация