A DICOM Image De-identification Algorithm in the MIDI-B Challenge
2508.07538v1
cs.CV, cs.AI
2025-08-13
Авторы:
Hongzhu Jiang, Sihan Xie, Zhiyu Wan
Резюме на русском
## Контекст
Распространение медицинских изображений в формате DICOM (Digital Imaging and Communications in Medicine) широко применяется в клинической практике и исследовательских задачах. Однако, для обеспечения конфиденциальности и соответствия законодательству, необходимо удалить из этих изображений личной идентификационной информации (PII). Это критически важно для защиты прав пациентов и соблюдения международных стандартов, таких как Health Insurance Portability and Accountability Act (HIPAA) и DICOM PS3.15. Кроме того, возникает потребность в сохранении ценности данных для дополнительного использования в области обучения машинному обучению, диагностики и терапии. Таким образом, алгоритмы de-identification DICOM-изображений являются ключевым инструментом для решения этой проблемы.
## Метод
Алгоритм de-identification DICOM-изображений, разработанный для участия в Medical Image De-Identification Benchmark (MIDI-B) Challenge, основывается на нескольких ключевых методах. Эти методы включают:
1. **Pixel Masking**: Удаление частей изображений, содержащих идентификаторы пациентов или другую конфиденциальную информацию.
2. **Date Shifting**: Изменение дат в метаданных изображений, чтобы предотвратить идентификацию пациентов по временной шкале.
3. **Date Hashing**: Хеширование дат для дополнительного защищения данных.
4. **Text Recognition**: Идентификация текстовых элементов внутри изображений с помощью оптического распознавания символов (OCR).
5. **Text Replacement**: Замена идентификаторов и другой конфиденциальной информации на заполнители или случайные строки.
6. **Text Removal**: Удаление всех текстовых элементов из изображений.
Эти методы были реализованы с использованием современных библиотек и инструментов, обеспечивая высокую точность и выполнение всех требований MIDI-B Challenge.
## Результаты
Наш алгоритм был протестирован на большом наборе данных, содержащем клинические DICOM-изображения. Результаты показали высокую эффективность решения:
- **Точность выполнения действий**: 99.92%.
- **Рейтинг в MIDI-B Challenge**: 2-е место из 10 команд, зарегистрировавшихся в турнире (из общего числа 22 команд).
- **Статистический анализ**: Алгоритм оптимально решал задачи удаления PII, сохраняя основную структуру изображений и их клиническую ценность.
## Значимость
Решение имеет широкие применения в медицине и науке:
- **Конфиденциальность пациентов**: Обеспечение защиты конфиденциальных данных в соответствии с законами и регламентами.
- **Улучшение научных исследований**: Данные, гарантированно свободные от идентификаторов, могут быть безопасно использованы для обучения моделей машинного обучения.
- **Высокая школа трансформации**: Алгоритм демонстрирует высокую эффективность в
Abstract
Image de-identification is essential for the public sharing of medical
images, particularly in the widely used Digital Imaging and Communications in
Medicine (DICOM) format as required by various regulations and standards,
including Health Insurance Portability and Accountability Act (HIPAA) privacy
rules, the DICOM PS3.15 standard, and best practices recommended by the Cancer
Imaging Archive (TCIA). The Medical Image De-Identification Benchmark (MIDI-B)
Challenge at the 27th International Conference on Medical Image Computing and
Computer Assisted Intervention (MICCAI 2024) was organized to evaluate
rule-based DICOM image de-identification algorithms with a large dataset of
clinical DICOM images. In this report, we explore the critical challenges of
de-identifying DICOM images, emphasize the importance of removing personally
identifiable information (PII) to protect patient privacy while ensuring the
continued utility of medical data for research, diagnostics, and treatment, and
provide a comprehensive overview of the standards and regulations that govern
this process. Additionally, we detail the de-identification methods we applied
- such as pixel masking, date shifting, date hashing, text recognition, text
replacement, and text removal - to process datasets during the test phase in
strict compliance with these standards. According to the final leaderboard of
the MIDI-B challenge, the latest version of our solution algorithm correctly
executed 99.92% of the required actions and ranked 2nd out of 10 teams that
completed the challenge (from a total of 22 registered teams). Finally, we
conducted a thorough analysis of the resulting statistics and discussed the
limitations of current approaches and potential avenues for future improvement.
Ссылки и действия
Дополнительные ресурсы: