CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning

2508.03764v1 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Justin Luong, Hao Xue, Flora D. Salim

Резюме на русском

**Резюме** Диагностика респираторных заболеваний часто основывается на анализе респираторных звуков, но ограничения по доступности меток данных и ресурсов для обучения моделей существенно снижают точность и надежность таких систем. В статье предлагается CoughViT — новая самостоятельной самоспособляющейся архитектура, основанная на Vision Transformer, для обучения представлений аудио-данных постукань легких. Методом маскированного моделирования данных в рамках самостоятельного самоспособляющегося обучения разработчики обучают модель для генерирования универсальных представлений респираторных звуков. Эти представления доказали свою эффективность при решении задач классификации респираторных звуков, даже при ограниченном объеме меток. На трех классических задачах классификации респираторных звуков, включая классификацию заболеваний, CoughViT показала примерно равную или лучшую производительность по сравнению с текущими лучшими моделями на основе супервизованного обучения. Это демонстрирует перспективу таких подходов в повышении доступности и точности диагностики респираторных заболеваний.

Abstract

Physicians routinely assess respiratory sounds during the diagnostic process, providing insight into the condition of a patient's airways. In recent years, AI-based diagnostic systems operating on respiratory sounds, have demonstrated success in respiratory disease detection. These systems represent a crucial advancement in early and accessible diagnosis which is essential for timely treatment. However, label and data scarcity remain key challenges, especially for conditions beyond COVID-19, limiting diagnostic performance and reliable evaluation. In this paper, we propose CoughViT, a novel pre-training framework for learning general-purpose cough sound representations, to enhance diagnostic performance in tasks with limited data. To address label scarcity, we employ masked data modelling to train a feature encoder in a self-supervised learning manner. We evaluate our approach against other pre-training strategies on three diagnostically important cough classification tasks. Experimental results show that our representations match or exceed current state-of-the-art supervised audio representations in enhancing performance on downstream tasks.

Ссылки и действия