Top-$k$ Feature Importance Ranking

2509.15420v1 cs.LG, stat.ML 2025-09-23
Авторы:

Yuxi Chen, Tiffany Tang, Genevera Allen

Резюме на русском

#### Контекст Определение важных признаков — одна из фундаментальных задач в интерпретируемом машинном обучении. Эта задача имеет приложения во многих областях, включая научное открытие, клиническую диагностику, искусственный интеллект и другие. Однако, несмотря на её ключевую роль, существуют значительные проблемы в систематизации и оценке признаков, особенно в контексте их важности. Обычно используются меры важности признаков, но ряд недостатков этих подходов, таких как неточность, неявность и отсутствие явной оптимизации для определения топ-$k$ признаков, затрудняют их применение в реальных задачах. #### Метод Мы предлагаем **RAMPART (Ranked Attributions with MiniPatches And Recursive Trimming)** — новую методологию для точного топ-$k$ определения важности признаков. Метод заключается в использовании ранжирования важности признаков как целевой функции, а не как пост-процессингового шага. Основные технические инструменты включают: - **MiniPatches**: локальные области функционального пространства, оптимизирующие решение задачи; - **Recursive Trimming**: последовательная эксплуатация фильтрации ненужных признаков; - **Sequential Halving**: эффективная стратегия уменьшения вычислительных затрат при оценке важности признаков. RAMPART сочетает эти элементы в целостную архитектуру, при этом оптимизируя точность ранжирования по важности признаков. #### Результаты Мы провели ряд экспериментов с использованием синтетических и реальных данных. Наши результаты показали, что RAMPART превосходит существующие методы ранжирования признаков, такие как SHAP, LIME и др., по метрикам точности ранжирования. В частности, в ситуациях с высокой размерностью данных, RAMPART показал существенный выигрыш в требованиях к вычислительным ресурсам и точности результатов. Мы также провели серию исследований в области геномики, где RAMPART демонстрировал способность выделять важные гены с высокой точностью. #### Значимость Предложенный подход имеет широкие применения в научном открытии, клинической диагностике и других областях, где важность признаков ключева для принятия решений. Разработанная архитектура достигает более высокой точности и эффективности по сравнению с ранее используемыми методами. Благодаря использованию адаптивных техник, RAMPART эффективно использует ресурсы и обеспечивает более точные результаты. #### Выводы Результаты наших исследований показали, что RAMPART является прорывом в области ранжирования важности признаков. Мы планируем продолжить работу над улучшением этой методологии, оптимизируя её для более сложных задач и применяя её в различных практических задачах. Этот подход может стать

Abstract

Accurate ranking of important features is a fundamental challenge in interpretable machine learning with critical applications in scientific discovery and decision-making. Unlike feature selection and feature importance, the specific problem of ranking important features has received considerably less attention. We introduce RAMPART (Ranked Attributions with MiniPatches And Recursive Trimming), a framework that utilizes any existing feature importance measure in a novel algorithm specifically tailored for ranking the top-$k$ features. Our approach combines an adaptive sequential halving strategy that progressively focuses computational resources on promising features with an efficient ensembling technique using both observation and feature subsampling. Unlike existing methods that convert importance scores to ranks as post-processing, our framework explicitly optimizes for ranking accuracy. We provide theoretical guarantees showing that RAMPART achieves the correct top-$k$ ranking with high probability under mild conditions, and demonstrate through extensive simulation studies that RAMPART consistently outperforms popular feature importance methods, concluding with a high-dimensional genomics case study.

Ссылки и действия