Learning ECG Representations via Poly-Window Contrastive Learning

2508.15225v1 cs.LG, eess.SP 2025-08-23
Авторы:

Yi Yuan, Joseph Van Duyn, Runze Yan, Zhuoyi Huang, Sulaiman Vesal, Sergey Plis, Xiao Hu, Gloria Hyunjung Kwak, Ran Xiao, Alex Fedorov

Резюме на русском

## Контекст Электрокардиограмма (ECG) является ключевым инструментом для диагностики заболеваний сердечно-сосудистой системы. Несмотря на развитие глубоких нейронных сетей, их эффективность в этой области часто ограничивается недостатком масштабных данных с подробными аннотациями. Одним из последних развитий в этой области является самостоятельное контрастное обучение. Однако большинство существующих методов концентрируются на генерации парных видов, недостаточно эффективно используя характерную темпоральную структуру ECG. Это значит, что необходимо развить методы, которые могут лучше воспринимать и учиться от временных данных. ## Метод Фреймворк, предложенный в данной работе, основывается на поли-окне контрастном обучении. Он использует несколько временных окон из каждого ECG-сигнала для формирования положительных пар. Эти окна воспринимаются статистическим подходом, чтобы максимизировать их согласие. Основная идея заключается в применении принципа анализа медленных черт (slow feature analysis), чтобы сеть выучивала неизменяемые и физиологически значимые черты, которые сохраняются во времени. Этот подход позволяет эффективно использовать временную структуру ECG-сигналов без необходимости подробных аннотаций. ## Результаты Для проверки эффективности метода был использован датасет PTB-XL. Результаты показали, что поли-окно контрастное обучение не только выполняет классификацию суперклассов с высокой точностью (AUROC 0.891 vs. 0.888, F1-score 0.680 vs. 0.679), но и эффективнее в процессе обучения. Так, его требуется до четырех раз меньше эпох для предварительного обучения (32 vs. 128), что существенно сокращает общий временной потребленный на этапе предварительного обучения (снижение на 14.8%). Эти результаты достигнуты несмотря на то, что сеть обрабатывает несколько окон для каждого сигнала, что делает этот подход практичным и эффективным для самостоятельного обучения. ## Значимость Этот метод может быть применен в различных областях, где требуется анализ биомедицинских временных рядов, таких как сердечная аритмия, ишемическая болезнь сердца и другие. Он предлагает значительные преимущества в скорости обучения и эффективности. Будущие исследования могут направлены на расширение этой методологии на другие виды биомедицинских данных и улучшение ее точности в сложных случаях диагностики. ## Выводы Предложенный поли-окно контрастной обучением является эффективным и скоростновым методом для получения надежных представлений из ECG-сигналов. Он превышает существующие методы в классификацион

Abstract

Electrocardiogram (ECG) analysis is foundational for cardiovascular disease diagnosis, yet the performance of deep learning models is often constrained by limited access to annotated data. Self-supervised contrastive learning has emerged as a powerful approach for learning robust ECG representations from unlabeled signals. However, most existing methods generate only pairwise augmented views and fail to leverage the rich temporal structure of ECG recordings. In this work, we present a poly-window contrastive learning framework. We extract multiple temporal windows from each ECG instance to construct positive pairs and maximize their agreement via statistics. Inspired by the principle of slow feature analysis, our approach explicitly encourages the model to learn temporally invariant and physiologically meaningful features that persist across time. We validate our approach through extensive experiments and ablation studies on the PTB-XL dataset. Our results demonstrate that poly-window contrastive learning consistently outperforms conventional two-view methods in multi-label superclass classification, achieving higher AUROC (0.891 vs. 0.888) and F1 scores (0.680 vs. 0.679) while requiring up to four times fewer pre-training epochs (32 vs. 128) and 14.8% in total wall clock pre-training time reduction. Despite processing multiple windows per sample, we achieve a significant reduction in the number of training epochs and total computation time, making our method practical for training foundational models. Through extensive ablations, we identify optimal design choices and demonstrate robustness across various hyperparameters. These findings establish poly-window contrastive learning as a highly efficient and scalable paradigm for automated ECG analysis and provide a promising general framework for self-supervised representation learning in biomedical time-series data.

Ссылки и действия