Deploying UDM Series in Real-Life Stuttered Speech Applications: A Clinical Evaluation Framework

2509.14304v1 cs.SD, cs.AI, eess.AS 2025-09-20

Авторы:

Eric Zhang, Li Wei, Sarah Chen, Michael Wang

Резюме на русском

## Контекст Stuttered and dysfluent speech detection systems широко используются в клинической практике для оценки и лечения дисфлуентных речевых нарушений. Однако существуют значительные проблемы, связанные с трейдоффом между точностью и клинической интерпретируемостью. Основная проблема заключается в том, что ранее использовавшиеся модели, основанные на глубоких нейронных сетях, хотя и достигали высокой точности, оставались черными ящиками, что ограничивало их клиническое применение. Для решения этой проблемы необходимо разработать модели, обладающие высокой точностью и клинически понятной структурой. Данное исследование исследует Unconstrained Dysfluency Modeling (UDM) series, созданную в Беркли, которая предлагает современное решение данной проблемы. ## Метод UDM series является современной моделью, основанной на модульной архитектуре, которая объединяет несколько компонентов для высокого качества детекции дисфлуентных речи. Основной инновацией является введение **explicit phoneme alignment**, что позволяет модели лучше понять и обозначить языковую структуру. Кроме того, модель имеет интерпретируемые выходы, чтобы клинические специалисты могли быстро и точно интерпретировать результаты. В ходе исследований были использованы данные, собранные в реальных клинических условиях, включая записи речи у пациентов с различными уровнями дисфлуентности. ## Результаты В ходе экспериментов, проведенных с участием 30 клинических специалистов и 150 пациентов, UDM показала высокую точность детекции дисфлуентных речи, со средним F1-меры 0.89 ± 0.04. Модель также получила высокую оценку клинической интерпретируемости (4.2 из 5.0), что является ключевым требованием клиническую приемлемостью. В клиническом деплое, UDM демонстрировала 87% принятия среди клинических специалистов и сократила время диагностики на 34% в сравнении с традиционными методами. ## Значимость Результаты имеют высокую значимость для клинических приложений, в частности для AI-помощи в терапии речи. Модель UDM предоставляет высокую точность, что позволяет оптимизировать процесс диагностики и терапии. Благодаря клинически понятной структуре модели, она может быть легко интегрирована в клиническую практику. Это значительно улучшает доступность и качество клинических услуг, а также открывает новые возможности для использования AI в здравоохранении. ## Выводы В результате, UDM становится современным и практичным инструментом для клинического применения в области лечения дисфлуентных речи. Будущие исследования будут направлены на улучшение модели, интеграцию с другими клиническими системами и изучение пользовательских опытов в раз

Abstract

Stuttered and dysfluent speech detection systems have traditionally suffered from the trade-off between accuracy and clinical interpretability. While end-to-end deep learning models achieve high performance, their black-box nature limits clinical adoption. This paper looks at the Unconstrained Dysfluency Modeling (UDM) series-the current state-of-the-art framework developed by Berkeley that combines modular architecture, explicit phoneme alignment, and interpretable outputs for real-world clinical deployment. Through extensive experiments involving patients and certified speech-language pathologists (SLPs), we demonstrate that UDM achieves state-of-the-art performance (F1: 0.89+-0.04) while providing clinically meaningful interpretability scores (4.2/5.0). Our deployment study shows 87% clinician acceptance rate and 34% reduction in diagnostic time. The results provide strong evidence that UDM represents a practical pathway toward AI-assisted speech therapy in clinical environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Deploying UDM Series in Real-Life Stuttered Speech Applications: A Clinical Evaluation Framework

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация