Scaling to Multimodal and Multichannel Heart Sound Classification: Fine-Tuning Wav2Vec 2.0 with Synthetic and Augmented Biosignals

2509.11606v1 cs.SD, cs.LG, eess.SP 2025-09-17

Авторы:

Milan Marocchi, Matthew Fynn, Kayapanda Mandana, Yue Rong

Резюме на русском

#### Контекст Кардиоваскулярные заболевания (ЦВЗ) являются одной из ведущих причин смертности в мире, признак этого является около 17,9 миллионов смертей ежегодно. Успешное и эффективное диагностирование ЦВЗ в фазе раннего заболевания может существенно снизить риск развития тяжелых осложнений. Однако, существуют значительные проблемы с доступностью и качеством данных для обучения моделей, которые могут быть использованы для отличных классификации аномалий сердечных звуков. Это возникает из-за ограниченности размеров доступных синхронных и многоканальных данных. Таким образом, необходимо разработать методы, которые могут эффективно использовать модели преобразования, основанные на глубоком обучении, для классификации сердечных звуков. Это возможно с помощью новых техник, таких как расширение данных и виртуальное генерирование данных. #### Метод Процитируемая модель Wav2Vec 2.0 была усовершенствована с применением нового подхода, который включает в себя синтез сигналов и методы виртуального генерирования данных. Для этой цели, были применены технологии, такие как WaveGrad и DiffWave, для создания виртуальных данных, которые были дополнены существующими данными сердечных звуков. Это позволило создать модифицированную версию модели Wav2Vec 2.0, которая может быть применена для классификации сердечных звуков в многоканальном и многомодальном формате. #### Результаты Эксперименты были проведены на нескольких наборах данных, включая CinC 2016 (сингле-канальное PCG), CinC Training-a (синхронизированные PCG и ECG), и данные в виде многоканальных многомодальных сигналов (mPCG). На CinC 2016 данных, модель достигла долгих точности (accuracy) в 92,48%, универсального усредненного рекалла (unweighted average recall, UAR) в 93,05%, и многих других показателей, таких как специфичность и соотношение Маттха (MCC). На данных CinC Training-a, эти показатели были достигнуты в 93,14%, 92,21%, 94,35% и 0,8380 для точности, UAR, специфичности и MCC соответственно. На многоканальных многомодальных данных (mPCG), где сложность классификации значительно выше, модель достигла точности в 77,13%, UAR в 74,25%, специфичности в 86,47% и MCC в 0,5082. #### Значимость Эти результаты показывают, что технологии, такие как WaveGrad и DiffWave, могут эффективно расширять и дополнять данные сердечных звуков, что позволяет использовать модели преобразования в области классификации сердечных звуков. Это может повысить точность диагностики ЦВЗ, особенно в ситуациях, когда доступ к большим многоканальным данным ограничен. Таким образом,

Abstract

Cardiovascular diseases (CVDs) are the leading cause of death worldwide, accounting for approximately 17.9 million deaths each year. Early detection is critical, creating a demand for accurate and inexpensive pre-screening methods. Deep learning has recently been applied to classify abnormal heart sounds indicative of CVDs using synchronised phonocardiogram (PCG) and electrocardiogram (ECG) signals, as well as multichannel PCG (mPCG). However, state-of-the-art architectures remain underutilised due to the limited availability of synchronised and multichannel datasets. Augmented datasets and pre-trained models provide a pathway to overcome these limitations, enabling transformer-based architectures to be trained effectively. This work combines traditional signal processing with denoising diffusion models, WaveGrad and DiffWave, to create an augmented dataset to fine-tune a Wav2Vec 2.0-based classifier on multimodal and multichannel heart sound datasets. The approach achieves state-of-the-art performance. On the Computing in Cardiology (CinC) 2016 dataset of single channel PCG, accuracy, unweighted average recall (UAR), sensitivity, specificity and Matthew's correlation coefficient (MCC) reach 92.48\%, 93.05\%, 93.63\%, 92.48\%, 94.93\% and 0.8283, respectively. Using the synchronised PCG and ECG signals of the training-a dataset from CinC, 93.14\%, 92.21\%, 94.35\%, 90.10\%, 95.12\% and 0.8380 are achieved for accuracy, UAR, sensitivity, specificity and MCC, respectively. Using a wearable vest dataset consisting of mPCG data, the model achieves 77.13\% accuracy, 74.25\% UAR, 86.47\% sensitivity, 62.04\% specificity, and 0.5082 MCC. These results demonstrate the effectiveness of transformer-based models for CVD detection when supported by augmented datasets, highlighting their potential to advance multimodal and multichannel heart sound classification.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация