Comparing Model-agnostic Feature Selection Methods through Relative Efficiency

2508.14268v1 stat.ML, cs.LG, stat.ME 2025-08-22
Авторы:

Chenghui Zheng, Garvesh Raskutti

Резюме на русском

## Контекст Область исследования критериев feature selection и importance estimation в моделях-независимых (model-agnostic setting) является важной и актуальной задачей в машинном обучении. Эти задачи играют ключевую роль при построении моделей, поскольку позволяют определить наиболее важные признаки, улучшая точность моделей и их прозрачность. Однако разработка модельно-независимых методов feature selection остается сложной, особенно когда требуется учитывать сложность моделей и высокие затраты вычислительных ресурсов. В настоящей работе авторы сосредоточились на feature selection методах, основанных на Generalized Covariance Measure (GCM) и Leave-One-Covariate-Out (LOCO) оценках. Эти методы широко используются, так как они могут быть применены к широкому классу моделей без ограничений на их внутреннюю архитектуру. Однако вопрос о том, какие из этих методов эффективнее в различных ситуациях, остается открытым. Наша мотивация заключается в сравнении этих методов с помощью показателя относительной эффективности и определении их преимуществ в разных моделях и условиях. ## Метод В ходе работы была проведена теоретическая и эмпирическая оценка двух методов feature selection: GCM и LOCO. Метод GCM основывается на измерении корреляции между признаками и целевой переменной, в то время как LOCO оценивает вклад каждого признака в модель, удаляя его по очереди и проверяя его влияние. Чтобы измерить относительную эффективность, авторы разработали теоретические результаты, основанные на трех различных моделях: линейных моделях, нелинейных аддитивных моделях и single-index моделях, которые моделируют некоторую сложность, похожую на single-layer neural network. Для практической оценки было проведено ряд симуляционных экспериментов и анализ реальных данных. Мы применили эти методы к различным машинным обучению алгоритмам, таким как градиентный бустинг деревьев и нейронные сети, чтобы проверить их эффективность в реальных условиях. Это позволило нам не только сравнить эффективность, но и оценить асимптотическую относительную эффективность каждого метода. ## Результаты Теоретические результаты показали, что GCM-методы обычно демонстрируют лучшую эффективность по сравнению с LOCO-методами при соблюдении определенных регулярных условий. Эти результаты были подтверждены эмпирическими исследованиями. Наши симуляции показали, что GCM-методы более эффективны в том случае, когда данные имеют сложную структуру, такую как аддитивные или нелинейные зависимости. Анализ реальных данных, включающий задачи классификации и регрессии, также поддерживает этот вывод. Наши результаты показали, что GCM-методы не только более эффективны, но и более устойчивы к выбо

Abstract

Feature selection and importance estimation in a model-agnostic setting is an ongoing challenge of significant interest. Wrapper methods are commonly used because they are typically model-agnostic, even though they are computationally intensive. In this paper, we focus on feature selection methods related to the Generalized Covariance Measure (GCM) and Leave-One-Covariate-Out (LOCO) estimation, and provide a comparison based on relative efficiency. In particular, we present a theoretical comparison under three model settings: linear models, non-linear additive models, and single index models that mimic a single-layer neural network. We complement this with extensive simulations and real data examples. Our theoretical results, along with empirical findings, demonstrate that GCM-related methods generally outperform LOCO under suitable regularity conditions. Furthermore, we quantify the asymptotic relative efficiency of these approaches. Our simulations and real data analysis include widely used machine learning methods such as neural networks and gradient boosting trees.

Ссылки и действия