Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions
2508.20717v1
cs.SD, cs.LG
2025-08-29
Авторы:
Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed
Резюме на русском
## Контекст
В последние годы звуковые методы диагностики болезней набирают все большую популярность, так как предлагают неинвазивный и сцалинный способ обнаружения различных клинических состояний. Несмотря на эти преимущества, существующие подходы как правило ограничиваются диагностикой отдельных условий и не учитывают богатость акустической информации, которая может предоставить важной информации для определения нескольких заболеваний. Этот факт ограничивает эффективность и широкое распространение таких методов. Многозадачный подход к обучению моделей может решить эту проблему, объединяя различные задачи в одну систему и используя общие представления для эффективного использования данных.
## Метод
Модель MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis) представляет собой двухветвную архитектуру, основанную на многозадачном обучении. Она состоит из специализированных энкодеров для каждого клинического условия, которые совместно используют общую акустическую сеть. Эта структура позволяет обеспечить эффективный обмен знаниями между задачами и привлечь общие закономерности в акустических паттернах. Модель обучается на данных Bridge2AI-Voice v2.0, не требуя скачивания сырых аудиоданных, что обеспечивает высокий уровень безопасности и конфиденциальности. Эта архитектура позволяет обрабатывать 9 различных клинических условий, включая головные боли, частоты дыхания и голосовые заболевания.
## Результаты
На тестировании на данных Bridge2AI-Voice v2.0, MARVEL показала высокую точность диагностики, с AUROC (Area Under the Receiver Operating Characteristic Curve) 0.78, с примечательными результатами на головных болях (AUROC = 0.79) и заболеваниях голоса (AUROC = 0.76). Особенно выдающимся был результат на диагностике Альцгеймера и неврологических условий, где AUROC достиг 0.89, а для Альцгеймера/мелкой когнитивной дефицита AUROC составил 0.97. Модель опередила одномодальные базлансы на 5–19% и победила современные модели самостоятельного обучения на 7 из 9 задач. Анализ корреляции показал, что обученные представления MARVEL схожи с клинически признаными акустическими признаками, что подтверждает надежность модели.
## Значимость
Результаты MARVEL открывают путь к развитию многозадачных звуковых систем диагностики для использования в ресурсозакрытых условиях. Модель может быть применена в сценариях, где доступ к специалистам и медицинским устройствам ограничен. Также модель может помочь в улучшении диагностики не только отдельных заболеваний, но и целого набора клинических условий, которые могут быть связаны с акустическими паттернами.
## Выводы
Abstract
Voice-based health assessment offers unprecedented opportunities for
scalable, non-invasive disease screening, yet existing approaches typically
focus on single conditions and fail to leverage the rich, multi-faceted
information embedded in speech. We present MARVEL (Multi-task Acoustic
Representations for Voice-based Health Analysis), a privacy-conscious multitask
learning framework that simultaneously detects nine distinct neurological,
respiratory, and voice disorders using only derived acoustic features,
eliminating the need for raw audio transmission. Our dual-branch architecture
employs specialized encoders with task-specific heads sharing a common acoustic
backbone, enabling effective cross-condition knowledge transfer. Evaluated on
the large-scale Bridge2AI-Voice v2.0 dataset, MARVEL achieves an overall AUROC
of 0.78, with exceptional performance on neurological disorders (AUROC = 0.89),
particularly for Alzheimer's disease/mild cognitive impairment (AUROC = 0.97).
Our framework consistently outperforms single-modal baselines by 5-19% and
surpasses state-of-the-art self-supervised models on 7 of 9 tasks, while
correlation analysis reveals that the learned representations exhibit
meaningful similarities with established acoustic features, indicating that the
model's internal representations are consistent with clinically recognized
acoustic patterns. By demonstrating that a single unified model can effectively
screen for diverse conditions, this work establishes a foundation for
deployable voice-based diagnostics in resource-constrained and remote
healthcare settings.
Ссылки и действия
Дополнительные ресурсы: