Deploying UDM Series in Real-Life Stuttered Speech Applications: A Clinical Evaluation Framework
2509.14304v1
cs.SD, cs.AI, eess.AS
2025-09-20
Авторы:
Eric Zhang, Li Wei, Sarah Chen, Michael Wang
Резюме на русском
## Контекст
Stuttered and dysfluent speech detection systems широко используются в клинической практике для оценки и лечения дисфлуентных речевых нарушений. Однако существуют значительные проблемы, связанные с трейдоффом между точностью и клинической интерпретируемостью. Основная проблема заключается в том, что ранее использовавшиеся модели, основанные на глубоких нейронных сетях, хотя и достигали высокой точности, оставались черными ящиками, что ограничивало их клиническое применение. Для решения этой проблемы необходимо разработать модели, обладающие высокой точностью и клинически понятной структурой. Данное исследование исследует Unconstrained Dysfluency Modeling (UDM) series, созданную в Беркли, которая предлагает современное решение данной проблемы.
## Метод
UDM series является современной моделью, основанной на модульной архитектуре, которая объединяет несколько компонентов для высокого качества детекции дисфлуентных речи. Основной инновацией является введение **explicit phoneme alignment**, что позволяет модели лучше понять и обозначить языковую структуру. Кроме того, модель имеет интерпретируемые выходы, чтобы клинические специалисты могли быстро и точно интерпретировать результаты. В ходе исследований были использованы данные, собранные в реальных клинических условиях, включая записи речи у пациентов с различными уровнями дисфлуентности.
## Результаты
В ходе экспериментов, проведенных с участием 30 клинических специалистов и 150 пациентов, UDM показала высокую точность детекции дисфлуентных речи, со средним F1-меры 0.89 ± 0.04. Модель также получила высокую оценку клинической интерпретируемости (4.2 из 5.0), что является ключевым требованием клиническую приемлемостью. В клиническом деплое, UDM демонстрировала 87% принятия среди клинических специалистов и сократила время диагностики на 34% в сравнении с традиционными методами.
## Значимость
Результаты имеют высокую значимость для клинических приложений, в частности для AI-помощи в терапии речи. Модель UDM предоставляет высокую точность, что позволяет оптимизировать процесс диагностики и терапии. Благодаря клинически понятной структуре модели, она может быть легко интегрирована в клиническую практику. Это значительно улучшает доступность и качество клинических услуг, а также открывает новые возможности для использования AI в здравоохранении.
## Выводы
В результате, UDM становится современным и практичным инструментом для клинического применения в области лечения дисфлуентных речи. Будущие исследования будут направлены на улучшение модели, интеграцию с другими клиническими системами и изучение пользовательских опытов в раз
Abstract
Stuttered and dysfluent speech detection systems have traditionally suffered
from the trade-off between accuracy and clinical interpretability. While
end-to-end deep learning models achieve high performance, their black-box
nature limits clinical adoption. This paper looks at the Unconstrained
Dysfluency Modeling (UDM) series-the current state-of-the-art framework
developed by Berkeley that combines modular architecture, explicit phoneme
alignment, and interpretable outputs for real-world clinical deployment.
Through extensive experiments involving patients and certified speech-language
pathologists (SLPs), we demonstrate that UDM achieves state-of-the-art
performance (F1: 0.89+-0.04) while providing clinically meaningful
interpretability scores (4.2/5.0). Our deployment study shows 87% clinician
acceptance rate and 34% reduction in diagnostic time. The results provide
strong evidence that UDM represents a practical pathway toward AI-assisted
speech therapy in clinical environments.
Ссылки и действия
Дополнительные ресурсы: