AutoML-Med: A Framework for Automated Machine Learning in Medical Tabular Data
2508.02625v1
cs.LG, cs.AI
2025-08-09
Авторы:
Riccardo Francia, Maurizio Leone, Giorgio Leonardi, Stefania Montani, Marzio Pennisi, Manuel Striani, Sandra D'Alfonso
Резюме на русском
Задача обработки данных в медицине сталкивается с рядом сложностей, включая отсутствие значений, несбалансированные классы, разнообразие типов признаков и малое количество выборок в отношении большого числа признаков. Эти факторы сильно влияют на качество работы машинного обучения. В статье представлено решение — AutoML-Med, фреймворк для автоматизации машинного обучения, ориентированный на решения вышеупомянутых проблем. Он использует латинскую гиперкубную выборку для поиска наилучших препроцессинговых методов, тренирует модели и использует Partial Rank Correlation Coefficient (PRCC) для оптимизации наиболее важных этапов препроцессинга. Авторы продемонстрировали эффективность AutoML-Med в двух клинических сценариях, где он показал лучшую балансированную точность и чувствительность по сравнению с другими инструментами. Этот фреймворк может значительно упростить применение машинного обучения в сфере здравоохранения, особенно в условиях данных с пропусками и несбалансированными классами.
Abstract
Medical datasets are typically affected by issues such as missing values,
class imbalance, a heterogeneous feature types, and a high number of features
versus a relatively small number of samples, preventing machine learning models
from obtaining proper results in classification and regression tasks. This
paper introduces AutoML-Med, an Automated Machine Learning tool specifically
designed to address these challenges, minimizing user intervention and
identifying the optimal combination of preprocessing techniques and predictive
models. AutoML-Med's architecture incorporates Latin Hypercube Sampling (LHS)
for exploring preprocessing methods, trains models using selected metrics, and
utilizes Partial Rank Correlation Coefficient (PRCC) for fine-tuned
optimization of the most influential preprocessing steps. Experimental results
demonstrate AutoML-Med's effectiveness in two different clinical settings,
achieving higher balanced accuracy and sensitivity, which are crucial for
identifying at-risk patients, compared to other state-of-the-art tools.
AutoML-Med's ability to improve prediction results, especially in medical
datasets with sparse data and class imbalance, highlights its potential to
streamline Machine Learning applications in healthcare.
Ссылки и действия
Дополнительные ресурсы: