Scaling to Multimodal and Multichannel Heart Sound Classification: Fine-Tuning Wav2Vec 2.0 with Synthetic and Augmented Biosignals
2509.11606v1
cs.SD, cs.LG, eess.SP
2025-09-17
Авторы:
Milan Marocchi, Matthew Fynn, Kayapanda Mandana, Yue Rong
Резюме на русском
#### Контекст
Кардиоваскулярные заболевания (ЦВЗ) являются одной из ведущих причин смертности в мире, признак этого является около 17,9 миллионов смертей ежегодно. Успешное и эффективное диагностирование ЦВЗ в фазе раннего заболевания может существенно снизить риск развития тяжелых осложнений. Однако, существуют значительные проблемы с доступностью и качеством данных для обучения моделей, которые могут быть использованы для отличных классификации аномалий сердечных звуков. Это возникает из-за ограниченности размеров доступных синхронных и многоканальных данных. Таким образом, необходимо разработать методы, которые могут эффективно использовать модели преобразования, основанные на глубоком обучении, для классификации сердечных звуков. Это возможно с помощью новых техник, таких как расширение данных и виртуальное генерирование данных.
#### Метод
Процитируемая модель Wav2Vec 2.0 была усовершенствована с применением нового подхода, который включает в себя синтез сигналов и методы виртуального генерирования данных. Для этой цели, были применены технологии, такие как WaveGrad и DiffWave, для создания виртуальных данных, которые были дополнены существующими данными сердечных звуков. Это позволило создать модифицированную версию модели Wav2Vec 2.0, которая может быть применена для классификации сердечных звуков в многоканальном и многомодальном формате.
#### Результаты
Эксперименты были проведены на нескольких наборах данных, включая CinC 2016 (сингле-канальное PCG), CinC Training-a (синхронизированные PCG и ECG), и данные в виде многоканальных многомодальных сигналов (mPCG). На CinC 2016 данных, модель достигла долгих точности (accuracy) в 92,48%, универсального усредненного рекалла (unweighted average recall, UAR) в 93,05%, и многих других показателей, таких как специфичность и соотношение Маттха (MCC). На данных CinC Training-a, эти показатели были достигнуты в 93,14%, 92,21%, 94,35% и 0,8380 для точности, UAR, специфичности и MCC соответственно. На многоканальных многомодальных данных (mPCG), где сложность классификации значительно выше, модель достигла точности в 77,13%, UAR в 74,25%, специфичности в 86,47% и MCC в 0,5082.
#### Значимость
Эти результаты показывают, что технологии, такие как WaveGrad и DiffWave, могут эффективно расширять и дополнять данные сердечных звуков, что позволяет использовать модели преобразования в области классификации сердечных звуков. Это может повысить точность диагностики ЦВЗ, особенно в ситуациях, когда доступ к большим многоканальным данным ограничен. Таким образом,
Abstract
Cardiovascular diseases (CVDs) are the leading cause of death worldwide,
accounting for approximately 17.9 million deaths each year. Early detection is
critical, creating a demand for accurate and inexpensive pre-screening methods.
Deep learning has recently been applied to classify abnormal heart sounds
indicative of CVDs using synchronised phonocardiogram (PCG) and
electrocardiogram (ECG) signals, as well as multichannel PCG (mPCG). However,
state-of-the-art architectures remain underutilised due to the limited
availability of synchronised and multichannel datasets. Augmented datasets and
pre-trained models provide a pathway to overcome these limitations, enabling
transformer-based architectures to be trained effectively. This work combines
traditional signal processing with denoising diffusion models, WaveGrad and
DiffWave, to create an augmented dataset to fine-tune a Wav2Vec 2.0-based
classifier on multimodal and multichannel heart sound datasets. The approach
achieves state-of-the-art performance. On the Computing in Cardiology (CinC)
2016 dataset of single channel PCG, accuracy, unweighted average recall (UAR),
sensitivity, specificity and Matthew's correlation coefficient (MCC) reach
92.48\%, 93.05\%, 93.63\%, 92.48\%, 94.93\% and 0.8283, respectively. Using the
synchronised PCG and ECG signals of the training-a dataset from CinC, 93.14\%,
92.21\%, 94.35\%, 90.10\%, 95.12\% and 0.8380 are achieved for accuracy, UAR,
sensitivity, specificity and MCC, respectively. Using a wearable vest dataset
consisting of mPCG data, the model achieves 77.13\% accuracy, 74.25\% UAR,
86.47\% sensitivity, 62.04\% specificity, and 0.5082 MCC. These results
demonstrate the effectiveness of transformer-based models for CVD detection
when supported by augmented datasets, highlighting their potential to advance
multimodal and multichannel heart sound classification.
Ссылки и действия
Дополнительные ресурсы: