A DICOM Image De-identification Algorithm in the MIDI-B Challenge

2508.07538v1 cs.CV, cs.AI 2025-08-13

Авторы:

Hongzhu Jiang, Sihan Xie, Zhiyu Wan

Резюме на русском

## Контекст Распространение медицинских изображений в формате DICOM (Digital Imaging and Communications in Medicine) широко применяется в клинической практике и исследовательских задачах. Однако, для обеспечения конфиденциальности и соответствия законодательству, необходимо удалить из этих изображений личной идентификационной информации (PII). Это критически важно для защиты прав пациентов и соблюдения международных стандартов, таких как Health Insurance Portability and Accountability Act (HIPAA) и DICOM PS3.15. Кроме того, возникает потребность в сохранении ценности данных для дополнительного использования в области обучения машинному обучению, диагностики и терапии. Таким образом, алгоритмы de-identification DICOM-изображений являются ключевым инструментом для решения этой проблемы. ## Метод Алгоритм de-identification DICOM-изображений, разработанный для участия в Medical Image De-Identification Benchmark (MIDI-B) Challenge, основывается на нескольких ключевых методах. Эти методы включают: 1. **Pixel Masking**: Удаление частей изображений, содержащих идентификаторы пациентов или другую конфиденциальную информацию. 2. **Date Shifting**: Изменение дат в метаданных изображений, чтобы предотвратить идентификацию пациентов по временной шкале. 3. **Date Hashing**: Хеширование дат для дополнительного защищения данных. 4. **Text Recognition**: Идентификация текстовых элементов внутри изображений с помощью оптического распознавания символов (OCR). 5. **Text Replacement**: Замена идентификаторов и другой конфиденциальной информации на заполнители или случайные строки. 6. **Text Removal**: Удаление всех текстовых элементов из изображений. Эти методы были реализованы с использованием современных библиотек и инструментов, обеспечивая высокую точность и выполнение всех требований MIDI-B Challenge. ## Результаты Наш алгоритм был протестирован на большом наборе данных, содержащем клинические DICOM-изображения. Результаты показали высокую эффективность решения: - **Точность выполнения действий**: 99.92%. - **Рейтинг в MIDI-B Challenge**: 2-е место из 10 команд, зарегистрировавшихся в турнире (из общего числа 22 команд). - **Статистический анализ**: Алгоритм оптимально решал задачи удаления PII, сохраняя основную структуру изображений и их клиническую ценность. ## Значимость Решение имеет широкие применения в медицине и науке: - **Конфиденциальность пациентов**: Обеспечение защиты конфиденциальных данных в соответствии с законами и регламентами. - **Улучшение научных исследований**: Данные, гарантированно свободные от идентификаторов, могут быть безопасно использованы для обучения моделей машинного обучения. - **Высокая школа трансформации**: Алгоритм демонстрирует высокую эффективность в

Abstract

Image de-identification is essential for the public sharing of medical images, particularly in the widely used Digital Imaging and Communications in Medicine (DICOM) format as required by various regulations and standards, including Health Insurance Portability and Accountability Act (HIPAA) privacy rules, the DICOM PS3.15 standard, and best practices recommended by the Cancer Imaging Archive (TCIA). The Medical Image De-Identification Benchmark (MIDI-B) Challenge at the 27th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2024) was organized to evaluate rule-based DICOM image de-identification algorithms with a large dataset of clinical DICOM images. In this report, we explore the critical challenges of de-identifying DICOM images, emphasize the importance of removing personally identifiable information (PII) to protect patient privacy while ensuring the continued utility of medical data for research, diagnostics, and treatment, and provide a comprehensive overview of the standards and regulations that govern this process. Additionally, we detail the de-identification methods we applied - such as pixel masking, date shifting, date hashing, text recognition, text replacement, and text removal - to process datasets during the test phase in strict compliance with these standards. According to the final leaderboard of the MIDI-B challenge, the latest version of our solution algorithm correctly executed 99.92% of the required actions and ranked 2nd out of 10 teams that completed the challenge (from a total of 22 registered teams). Finally, we conducted a thorough analysis of the resulting statistics and discussed the limitations of current approaches and potential avenues for future improvement.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A DICOM Image De-identification Algorithm in the MIDI-B Challenge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация