ArtifactGen: Benchmarking WGAN-GP vs Diffusion for Label-Aware EEG Artifact Synthesis

2509.08188v1 cs.LG, cs.NE, q-bio.NC 2025-09-12
Авторы:

Hritik Arasu, Faisal R Jahangiri

Резюме на русском

## Контекст Мускульные, зрительные, электродные, чищечные и шейные артефакты в электроэнцефалограммах (EEG) часто портят автоматизированные анализы, но их выявление и масштабная лейблирование оказываются дорогостоящими. Исследователи изучают возможности современных генеративных моделей для синтеза реалистичных, лейблированных артефактных сегментов, которые могли бы использоваться для дополнения тренировочных наборов данных и повышения устойчивости алгоритмов к различным условиям. ## Метод Для сравнения двух генеративных моделей — протекторного WGAN-GP с проекционным дискриминатором и 1D-деноизинговой диффузионной модели с классификаторно-свободной наклоном — было применено Тюфский корпус EEG-артефактов (TUH EEG Artifact, TUAR). Данные были разбиты на субъектно-специфические подвыборки, а окна фиксированной длины (например, 250 отсчетов) были предварительно обработаны для каждой модели: минимум-макс для WGAN-GP и з-скор по каждому каналу/записи для диффузии. ## Результаты Сравнение проводилось по трем направлениям: (i) характеристика реалистичности с помощью изменений Welch-банд-пода и других метрик (многомерное мерное отличие, автокорреляция, Frobenius-дистанция), (ii) специфичности с помощью легких $k$NN и методов классификации, (iii) ценности с использованием эффектов на артефактном распознавании. Обе модели показали слабую класс-устойчивую восстановление, но WGAN-GP демонстрировал лучший спектральный аналог реальных данных по метрикам типа MMD. ## Значимость Полученные модели могут применяться в сферах здравоохранения, автоматизации сенсорных систем, в том числе для расширения наборов данных в области обучения с доступом к лейблированным артефактам. Основное преимущество — возможность создания реалистичных артефактов с учетом классов, что дает возможность улучшить устойчивость алгоритмов к различным условиям. ## Выводы Сравнение WGAN-GP и диффузионной модели показало, что WGAN-GP даёт более точный спектральный аналог реальных артефактов, но обе модели слабо выполняют класс-устойчивое восстановление. Дальнейшие исследования должны сфокусироваться на улучшении условности моделей и расширении объёма синтезируемых данных.

Abstract

Artifacts in electroencephalography (EEG) -- muscle, eye movement, electrode, chewing, and shiver -- confound automated analysis yet are costly to label at scale. We study whether modern generative models can synthesize realistic, label-aware artifact segments suitable for augmentation and stress-testing. Using the TUH EEG Artifact (TUAR) corpus, we curate subject-wise splits and fixed-length multi-channel windows (e.g., 250 samples) with preprocessing tailored to each model (per-window min-max for adversarial training; per-recording/channel $z$-score for diffusion). We compare a conditional WGAN-GP with a projection discriminator to a 1D denoising diffusion model with classifier-free guidance, and evaluate along three axes: (i) fidelity via Welch band-power deltas ($\Delta\delta,\ \Delta\theta,\ \Delta\alpha,\ \Delta\beta$), channel-covariance Frobenius distance, autocorrelation $L_2$, and distributional metrics (MMD/PRD); (ii) specificity via class-conditional recovery with lightweight $k$NN/classifiers; and (iii) utility via augmentation effects on artifact recognition. In our setting, WGAN-GP achieves closer spectral alignment and lower MMD to real data, while both models exhibit weak class-conditional recovery, limiting immediate augmentation gains and revealing opportunities for stronger conditioning and coverage. We release a reproducible pipeline -- data manifests, training configurations, and evaluation scripts -- to establish a baseline for EEG artifact synthesis and to surface actionable failure modes for future work.

Ссылки и действия