Bridging Privacy and Utility: Synthesizing anonymized EEG with constraining utility functions

2509.20454v1 cs.LG, cs.CR 2025-09-27
Авторы:

Kay Fuhrmeister, Arne Pelzer, Fabian Radke, Julia Lechinger, Mahzad Gharleghi, Thomas Köllmer, Insa Wolf

Резюме на русском

## Контекст В последние годы ЭЭГ (Электроэнцефалограмма) получила широкое распространение в области машинного обучения, особенно в задачах, таких как детектирование стадий сна и обнаружение неврологических заболеваний. ЭЭГ также показала потенциал в реализации переразыментирования и утечек чувствительной персональной информации. Эти риски усиливаются с появлением потребительских устройств EEG, которые могут собирать и хранить большие объемы данных с плохой защитой конфиденциальности. Этот факт повышает вопросы о безопасности такого данных и о необходимости создания методов, обеспечивающих баланс между защитой конфиденциальности и сохранением эффективности данных для машинного обучения. Наша работа направлена на развитие метода, который бы позволил значительно снизить риск утечек персональной информации, не причинив вреда удобству и полезности данных для машинного обучения. ## Метод Мы предлагаем использовать трансформерный автокодировщик для создания зашифрованных данных EEG, которые не позволяют определить точный идентификатор пользователя, при этом сохраняя возможность использования этих данных для обучения моделей машинного обучения. Автокодировщик включает в себя несколько слоев эмбеддингов, которые преобразуют оригинальные данные EEG в менее идентифицируемую форму, при этом сохраняя важность для задачи автоматической стадийной стадии (для которой ЭЭГ часто используется). Для того, чтобы оптимизировать результат, мы использовали набор контролируемых функций ютильности, которые определяют, насколько данные сохраняют полезность для обучения моделей. ## Результаты Мы проводили эксперименты со стандартным набором данных EEG для автоматической стадийной стадии сна. Мы сравнили показатели защиты конфиденциальности (реализируемость переразыментирования) и удобства (результаты обучения моделей) перед и после применения нашего метода. Наши эксперименты показали, что применение автокодировщика существенно снижает вероятность успешного переразыментирования (до 70% снижение в сравнении с исходными данными), при этом сохраняя высокую точность моделей в задаче автоматической стадийной стадии сна. ## Значимость Наш метод может быть применен в различных областях, где требуется защита конфиденциальности исследовательских данных, например, в области медицины, где ЭЭГ-данные могут содержать чувствительные сведения о здоровье пациентов. Этот подход позволит расширить возможности использования EEG в обучении моделей машинного обучения, не рискуя утечкой чувствительной информации. Это означает, что защищенные данные могут быть безопасно использованы для развити

Abstract

Electroencephalography (EEG) is widely used for recording brain activity and has seen numerous applications in machine learning, such as detecting sleep stages and neurological disorders. Several studies have successfully shown the potential of EEG data for re-identification and leakage of other personal information. Therefore, the increasing availability of EEG consumer devices raises concerns about user privacy, motivating us to investigate how to safeguard this sensitive data while retaining its utility for EEG applications. To address this challenge, we propose a transformer-based autoencoder to create EEG data that does not allow for subject re-identification while still retaining its utility for specific machine learning tasks. We apply our approach to automatic sleep staging by evaluating the re-identification and utility potential of EEG data before and after anonymization. The results show that the re-identifiability of the EEG signal can be substantially reduced while preserving its utility for machine learning.

Ссылки и действия