From Data to Diagnosis: A Large, Comprehensive Bone Marrow Dataset and AI Methods for Childhood Leukemia Prediction
2509.15895v1
cs.LG, cs.AI, cs.CV
2025-09-23
Авторы:
Henning Höfener, Farina Kock, Martina Pontones, Tabita Ghete, David Pfrang, Nicholas Dickel, Meik Kunz, Daniela P. Schacherer, David A. Clunie, Andrey Fedorov, Max Westphal, Markus Metzler
Резюме на русском
## Контекст
Лейкемия — одна из самых распространенных онкологических заболеваний у детей, требующая точной диагностики для выбора эффективного лечения. Диагностика прежде всего основывается на ручном микроскопическом анализе морфологии костного мозка, что требует опыта и знаний. Артефакты в данных и личностные различия в оценке морфологии могут снизить точность диагностики. Несмотря на развитие искусственного интеллекта (AI) в медицине, большинство решений используют закрытые данные и покрывают только часть диагностического процесса. Необходимо разработать широкодоступные данные и методы, покрывающие весь диагностический цикл.
## Метод
Для решения проблемы был создан большой, высококачественный, открытый датасет, охватывающий весь диагностический цикл — от детекции клеток до диагноза. Датасет включает изображения 246 педиатрических пациентов, более 40 000 клеток с аннотациями границами, 28 000 клеток с классификационными метками. Использовались методы машинного обучения для детекции клеток, классификации и предсказания диагноза. Для оценки точности использовались показатели: аппаратная погрешность (precision), подвергаемость к ошибке (recall) и F1-меры.
## Результаты
Эксперименты показали высокую точность: аппаратная погрешность 0.96 для детекции клеток, AUC 0.98 для классификации, F1-мера 0.61 для классификации 33 классов клеток и F1-мера 0.90 для предсказания диагноза. AI-модели демонстрируют высокую точность в определении клеток и диагноза, предоставляя новые возможности для точного и быстрого диагностического анализа.
## Значимость
Разработанный датасет может стать основой для развития методов AI в диагностике лейкемии, повышая точность диагностики и сокращая время проведения диагностических исследований. Он может быть применен в различных областях, включая обучение AI-систем, верификацию диагностических процессов, улучшение клинических решений и повышение качества лечения детей с лейкемией.
## Выводы
Разработанный датасет и методы AI оказались эффективными для диагностики лейкемии. Они предоставляют возможность точной диагностики, повышают производительность клинического анализа и могут помочь в улучшении результатов лечения детей с лейкемией. Будущие исследования будут фокусироваться на улучшении точности и общности AI-решений для других онкологических заболеваний.
Abstract
Leukemia diagnosis primarily relies on manual microscopic analysis of bone
marrow morphology supported by additional laboratory parameters, making it
complex and time consuming. While artificial intelligence (AI) solutions have
been proposed, most utilize private datasets and only cover parts of the
diagnostic pipeline. Therefore, we present a large, high-quality, publicly
available leukemia bone marrow dataset spanning the entire diagnostic process,
from cell detection to diagnosis. Using this dataset, we further propose
methods for cell detection, cell classification, and diagnosis prediction. The
dataset comprises 246 pediatric patients with diagnostic, clinical and
laboratory information, over 40 000 cells with bounding box annotations and
more than 28 000 of these with high-quality class labels, making it the most
comprehensive dataset publicly available. Evaluation of the AI models yielded
an average precision of 0.96 for the cell detection, an area under the curve of
0.98, and an F1-score of 0.61 for the 33-class cell classification, and a mean
F1-score of 0.90 for the diagnosis prediction using predicted cell counts.
While the proposed approaches demonstrate their usefulness for AI-assisted
diagnostics, the dataset will foster further research and development in the
field, ultimately contributing to more precise diagnoses and improved patient
outcomes.
Ссылки и действия
Дополнительные ресурсы: