AutoML-Med: A Framework for Automated Machine Learning in Medical Tabular Data

2508.02625v1 cs.LG, cs.AI 2025-08-09
Авторы:

Riccardo Francia, Maurizio Leone, Giorgio Leonardi, Stefania Montani, Marzio Pennisi, Manuel Striani, Sandra D'Alfonso

Резюме на русском

Задача обработки данных в медицине сталкивается с рядом сложностей, включая отсутствие значений, несбалансированные классы, разнообразие типов признаков и малое количество выборок в отношении большого числа признаков. Эти факторы сильно влияют на качество работы машинного обучения. В статье представлено решение — AutoML-Med, фреймворк для автоматизации машинного обучения, ориентированный на решения вышеупомянутых проблем. Он использует латинскую гиперкубную выборку для поиска наилучших препроцессинговых методов, тренирует модели и использует Partial Rank Correlation Coefficient (PRCC) для оптимизации наиболее важных этапов препроцессинга. Авторы продемонстрировали эффективность AutoML-Med в двух клинических сценариях, где он показал лучшую балансированную точность и чувствительность по сравнению с другими инструментами. Этот фреймворк может значительно упростить применение машинного обучения в сфере здравоохранения, особенно в условиях данных с пропусками и несбалансированными классами.

Abstract

Medical datasets are typically affected by issues such as missing values, class imbalance, a heterogeneous feature types, and a high number of features versus a relatively small number of samples, preventing machine learning models from obtaining proper results in classification and regression tasks. This paper introduces AutoML-Med, an Automated Machine Learning tool specifically designed to address these challenges, minimizing user intervention and identifying the optimal combination of preprocessing techniques and predictive models. AutoML-Med's architecture incorporates Latin Hypercube Sampling (LHS) for exploring preprocessing methods, trains models using selected metrics, and utilizes Partial Rank Correlation Coefficient (PRCC) for fine-tuned optimization of the most influential preprocessing steps. Experimental results demonstrate AutoML-Med's effectiveness in two different clinical settings, achieving higher balanced accuracy and sensitivity, which are crucial for identifying at-risk patients, compared to other state-of-the-art tools. AutoML-Med's ability to improve prediction results, especially in medical datasets with sparse data and class imbalance, highlights its potential to streamline Machine Learning applications in healthcare.

Ссылки и действия