CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning

2508.03764v1 cs.SD, cs.AI, eess.AS 2025-08-09

Авторы:

Justin Luong, Hao Xue, Flora D. Salim

Резюме на русском

**Резюме** Диагностика респираторных заболеваний часто основывается на анализе респираторных звуков, но ограничения по доступности меток данных и ресурсов для обучения моделей существенно снижают точность и надежность таких систем. В статье предлагается CoughViT — новая самостоятельной самоспособляющейся архитектура, основанная на Vision Transformer, для обучения представлений аудио-данных постукань легких. Методом маскированного моделирования данных в рамках самостоятельного самоспособляющегося обучения разработчики обучают модель для генерирования универсальных представлений респираторных звуков. Эти представления доказали свою эффективность при решении задач классификации респираторных звуков, даже при ограниченном объеме меток. На трех классических задачах классификации респираторных звуков, включая классификацию заболеваний, CoughViT показала примерно равную или лучшую производительность по сравнению с текущими лучшими моделями на основе супервизованного обучения. Это демонстрирует перспективу таких подходов в повышении доступности и точности диагностики респираторных заболеваний.

Abstract

Physicians routinely assess respiratory sounds during the diagnostic process, providing insight into the condition of a patient's airways. In recent years, AI-based diagnostic systems operating on respiratory sounds, have demonstrated success in respiratory disease detection. These systems represent a crucial advancement in early and accessible diagnosis which is essential for timely treatment. However, label and data scarcity remain key challenges, especially for conditions beyond COVID-19, limiting diagnostic performance and reliable evaluation. In this paper, we propose CoughViT, a novel pre-training framework for learning general-purpose cough sound representations, to enhance diagnostic performance in tasks with limited data. To address label scarcity, we employ masked data modelling to train a feature encoder in a self-supervised learning manner. We evaluate our approach against other pre-training strategies on three diagnostically important cough classification tasks. Experimental results show that our representations match or exceed current state-of-the-art supervised audio representations in enhancing performance on downstream tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация