CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
2508.03764v1
cs.SD, cs.AI, eess.AS
2025-08-09
Авторы:
Justin Luong, Hao Xue, Flora D. Salim
Резюме на русском
**Резюме**
Диагностика респираторных заболеваний часто основывается на анализе респираторных звуков, но ограничения по доступности меток данных и ресурсов для обучения моделей существенно снижают точность и надежность таких систем. В статье предлагается CoughViT — новая самостоятельной самоспособляющейся архитектура, основанная на Vision Transformer, для обучения представлений аудио-данных постукань легких. Методом маскированного моделирования данных в рамках самостоятельного самоспособляющегося обучения разработчики обучают модель для генерирования универсальных представлений респираторных звуков. Эти представления доказали свою эффективность при решении задач классификации респираторных звуков, даже при ограниченном объеме меток. На трех классических задачах классификации респираторных звуков, включая классификацию заболеваний, CoughViT показала примерно равную или лучшую производительность по сравнению с текущими лучшими моделями на основе супервизованного обучения. Это демонстрирует перспективу таких подходов в повышении доступности и точности диагностики респираторных заболеваний.
Abstract
Physicians routinely assess respiratory sounds during the diagnostic process,
providing insight into the condition of a patient's airways. In recent years,
AI-based diagnostic systems operating on respiratory sounds, have demonstrated
success in respiratory disease detection. These systems represent a crucial
advancement in early and accessible diagnosis which is essential for timely
treatment. However, label and data scarcity remain key challenges, especially
for conditions beyond COVID-19, limiting diagnostic performance and reliable
evaluation. In this paper, we propose CoughViT, a novel pre-training framework
for learning general-purpose cough sound representations, to enhance diagnostic
performance in tasks with limited data. To address label scarcity, we employ
masked data modelling to train a feature encoder in a self-supervised learning
manner. We evaluate our approach against other pre-training strategies on three
diagnostically important cough classification tasks. Experimental results show
that our representations match or exceed current state-of-the-art supervised
audio representations in enhancing performance on downstream tasks.
Ссылки и действия
Дополнительные ресурсы: