Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

2508.20717v1 cs.SD, cs.LG 2025-08-29

Авторы:

Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed

Резюме на русском

## Контекст В последние годы звуковые методы диагностики болезней набирают все большую популярность, так как предлагают неинвазивный и сцалинный способ обнаружения различных клинических состояний. Несмотря на эти преимущества, существующие подходы как правило ограничиваются диагностикой отдельных условий и не учитывают богатость акустической информации, которая может предоставить важной информации для определения нескольких заболеваний. Этот факт ограничивает эффективность и широкое распространение таких методов. Многозадачный подход к обучению моделей может решить эту проблему, объединяя различные задачи в одну систему и используя общие представления для эффективного использования данных. ## Метод Модель MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis) представляет собой двухветвную архитектуру, основанную на многозадачном обучении. Она состоит из специализированных энкодеров для каждого клинического условия, которые совместно используют общую акустическую сеть. Эта структура позволяет обеспечить эффективный обмен знаниями между задачами и привлечь общие закономерности в акустических паттернах. Модель обучается на данных Bridge2AI-Voice v2.0, не требуя скачивания сырых аудиоданных, что обеспечивает высокий уровень безопасности и конфиденциальности. Эта архитектура позволяет обрабатывать 9 различных клинических условий, включая головные боли, частоты дыхания и голосовые заболевания. ## Результаты На тестировании на данных Bridge2AI-Voice v2.0, MARVEL показала высокую точность диагностики, с AUROC (Area Under the Receiver Operating Characteristic Curve) 0.78, с примечательными результатами на головных болях (AUROC = 0.79) и заболеваниях голоса (AUROC = 0.76). Особенно выдающимся был результат на диагностике Альцгеймера и неврологических условий, где AUROC достиг 0.89, а для Альцгеймера/мелкой когнитивной дефицита AUROC составил 0.97. Модель опередила одномодальные базлансы на 5–19% и победила современные модели самостоятельного обучения на 7 из 9 задач. Анализ корреляции показал, что обученные представления MARVEL схожи с клинически признаными акустическими признаками, что подтверждает надежность модели. ## Значимость Результаты MARVEL открывают путь к развитию многозадачных звуковых систем диагностики для использования в ресурсозакрытых условиях. Модель может быть применена в сценариях, где доступ к специалистам и медицинским устройствам ограничен. Также модель может помочь в улучшении диагностики не только отдельных заболеваний, но и целого набора клинических условий, которые могут быть связаны с акустическими паттернами. ## Выводы

Abstract

Voice-based health assessment offers unprecedented opportunities for scalable, non-invasive disease screening, yet existing approaches typically focus on single conditions and fail to leverage the rich, multi-faceted information embedded in speech. We present MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis), a privacy-conscious multitask learning framework that simultaneously detects nine distinct neurological, respiratory, and voice disorders using only derived acoustic features, eliminating the need for raw audio transmission. Our dual-branch architecture employs specialized encoders with task-specific heads sharing a common acoustic backbone, enabling effective cross-condition knowledge transfer. Evaluated on the large-scale Bridge2AI-Voice v2.0 dataset, MARVEL achieves an overall AUROC of 0.78, with exceptional performance on neurological disorders (AUROC = 0.89), particularly for Alzheimer's disease/mild cognitive impairment (AUROC = 0.97). Our framework consistently outperforms single-modal baselines by 5-19% and surpasses state-of-the-art self-supervised models on 7 of 9 tasks, while correlation analysis reveals that the learned representations exhibit meaningful similarities with established acoustic features, indicating that the model's internal representations are consistent with clinically recognized acoustic patterns. By demonstrating that a single unified model can effectively screen for diverse conditions, this work establishes a foundation for deployable voice-based diagnostics in resource-constrained and remote healthcare settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация