Hierarchical Variable Importance with Statistical Control for Medical Data-Based Prediction

2508.08724v1 stat.ML, cs.LG 2025-08-14
Авторы:

Joseph Paillard, Antoine Collas, Denis A. Engemann, Bertrand Thirion

Резюме на русском

## Контекст Область исследования связана с развитием методов контролируемого измерения важности переменных в моделях машинного обучения, особенно в контексте медицинского применения. Несмотря на прогресс в машинном обучении, возникают сложности с интерпретируемостью сложных моделей, особенно при обработке медицинских данных. Эта проблема становится важной, так как медицинские приложения требуют понятного объяснения решений моделей. Неоднородность и высокая корреляция данных в медицинской сфере делают задачу еще более сложной. Наша мотивация заключается в разработке метода, который сможет эффективно обрабатывать такие данные, обеспечивая контролируемую интерпретабельность. ## Метод Мы предлагаем Hierarchical-CPI (Conditional Variable Importance), подход, который строит дерево групп важных переменных, используя тривиальные выборки для моделирования. Метод основывается на группировании похожих переменных и использовании их вместе для предсказания целевой переменной. Это позволяет оптимизировать вычислительную сложность, не уменьшая точность. Разделение данных на подгруппы позволяет контролировать ошибки на уровне семейств (family-wise error rate), что обеспечивает достоверность результатов. Метод также использует алгоритмы для достижения высокой точности в условиях высокой корреляции данных. ## Результаты Мы проверили Hierarchical-CPI на двух медицинских данных: 1) данных ADNI (Alzheimer’s Disease Neuroimaging Initiative) для классификации диагнозов деменции на основе магнитных резонансных изображений (MRI), и 2) данных TDBRAIN для анализа эффекта Бергера на электроэнцефалограммы (EEG). Наши результаты показали, что Hierarchical-CPI эффективно определяет биологически обоснованные переменные, которые влияют на результаты. Метод показал себя лучше, чем существующие варианты, в том числе при работе с высококоррелированными данными. ## Значимость Метод Hierarchical-CPI может быть применен не только в медицинских задачах, но и в других сферах, где требуется прозрачность моделей и контроль ошибок. Он устойчив к высокой корреляции данных, что делает его полезным для обработки медицинских изображений, генетических данных и других сложных многомерных данных. Данный подход может способствовать улучшению практического применения моделей машинного обучения в медицине, повышая доверие к результатам у медиков и специалистов. ## Выводы Наша работа представляет Hierarchical-CPI, новый подход для измерения важности переменных в моделях машинного обучения, оптимизированный для работы с высококоррелированными данными. Мы продемонстрировали его эффективность в задачах классификации деменции и анализа EEG. Будущие исследования будут сфокусированы на расширении это

Abstract

Recent advances in machine learning have greatly expanded the repertoire of predictive methods for medical imaging. However, the interpretability of complex models remains a challenge, which limits their utility in medical applications. Recently, model-agnostic methods have been proposed to measure conditional variable importance and accommodate complex non-linear models. However, they often lack power when dealing with highly correlated data, a common problem in medical imaging. We introduce Hierarchical-CPI, a model-agnostic variable importance measure that frames the inference problem as the discovery of groups of variables that are jointly predictive of the outcome. By exploring subgroups along a hierarchical tree, it remains computationally tractable, yet also enjoys explicit family-wise error rate control. Moreover, we address the issue of vanishing conditional importance under high correlation with a tree-based importance allocation mechanism. We benchmarked Hierarchical-CPI against state-of-the-art variable importance methods. Its effectiveness is demonstrated in two neuroimaging datasets: classifying dementia diagnoses from MRI data (ADNI dataset) and analyzing the Berger effect on EEG data (TDBRAIN dataset), identifying biologically plausible variables.

Ссылки и действия