Finding My Voice: Generative Reconstruction of Disordered Speech for Automated Clinical Evaluation
2509.19231v1
cs.SD, cs.AI, cs.CL
2025-09-25
Авторы:
Karen Rosero, Eunjung Yeo, David R. Mortensen, Cortney Van't Slot, Rami R. Hallac, Carlos Busso
Резюме на русском
## Контекст
Область исследования генерируемой речи, особенно в сфере медицины, набирает все большую популярность. Многие методы фокусируются на звуковых и правописаных ошибках, которые могут возникать у детей с языковыми расстройствами. Однако существуют лишь немногие решения, которые сочетают безупречную звуковую реконструкцию с сохранением идентичности речи. Такая проблема особенно актуальна для детей с звуковыми расстройствами (SSD), которые требуют индивидуального подхода в клинической практике. Эта статья предлагает ChiReSSD — уникальную систему, которая не только корректурует звуковую речь, но и сохраняет идентичность речи ребенка.
## Метод
ChiReSSD — это расширенная модель стилевой генерируемой речи (TTS), которая нацелена на корректуру звуков у детей с SSD. Она использует два основных блока: фаза анализа и фаза реконструкции. В первой фазе анализируется голос ребенка с использованием методов питания вперед и обучения классификатора. Во второй фазе эта информация используется для генерирования звукового сигнала, который сохраняет идентичность речи ребенка, но исправляет звуковые ошибки. Модель учится с помощью нейронных сетей, которые обучаются на большом объеме данных, включая голоса детей с SSD.
## Результаты
Для оценки ChiReSSD была использована база данных STAR, содержащая записи голосов детей с SSD. Эксперименты показали, что модель существенно повысила лексическую точность и сохранила идентичность речи ребенка. Также был проведен автоматический предиктивный анализ, в котором модель сравнительно точно определяла звуки и консонанты в исходных и реконструированных записях. На данных TORGO была проверена общеупотребительность модели на взрослых с дисартической речью, и результаты также проявили высокую точность.
## Значимость
ChiReSSD предлагает широкие приложения в клинической практике, в том числе в диагностике и лечении звуковых расстройств. Она может существенно снизить трудозатраты для медицинских экспертов, автоматизируя процесс анализа и корректуры речи. Более того, модель эффективно работает не только с детскими голосами, но и с взрослыми, что увеличивает ее полезность в разнообразных клинических ситуациях.
## Выводы
Результаты экспериментов показывают, что ChiReSSD является эффективным инструментом для корректуры звуков и сохранения идентичности речи. Будущие исследования будут сфокусированы на расширении баз данных и улучшении модели для различных клинических задач. Это может привести к радикальному улучшению клинического анализа речи и уменьшению трудозатрат для эксп
Abstract
We present ChiReSSD, a speech reconstruction framework that preserves
children speaker's identity while suppressing mispronunciations. Unlike prior
approaches trained on healthy adult speech, ChiReSSD adapts to the voices of
children with speech sound disorders (SSD), with particular emphasis on pitch
and prosody. We evaluate our method on the STAR dataset and report substantial
improvements in lexical accuracy and speaker identity preservation.
Furthermore, we automatically predict the phonetic content in the original and
reconstructed pairs, where the proportion of corrected consonants is comparable
to the percentage of correct consonants (PCC), a clinical speech assessment
metric. Our experiments show Pearson correlation of 0.63 between automatic and
human expert annotations, highlighting the potential to reduce the manual
transcription burden. In addition, experiments on the TORGO dataset demonstrate
effective generalization for reconstructing adult dysarthric speech. Our
results indicate that disentangled, style-based TTS reconstruction can provide
identity-preserving speech across diverse clinical populations.
Ссылки и действия
Дополнительные ресурсы: