Variable Selection Using Relative Importance Rankings
2509.10853v1
stat.ML, cs.LG
2025-09-17
Авторы:
Tien-En Chang, Argon Chen
Резюме на русском
#### Контекст
Анализ зависимости и выбор переменных (Variable Selection) является ключевым элементом в статистике и машинном обучении, поскольку определяет важность предикторов и их вклад в модель. Однако существующие подходы часто игнорируют зависимости между предикторами, что приводит к неточностям в ранжировании. Другая актуальная проблема — недостаточность эффективности многих методов при работе с высокозависимыми предикторами. Известные методы, такие как lasso и relaxed lasso, хотя и эффективны, но имеют ограничения в работе с такими данными. Задача этой работы — проверить возможность использования меры relative importance (RI) для варьирования важности предикторов до создания модели. Это позволит использовать RI в качестве быстрого и точного инструмента для подбора переменных.
#### Метод
Для реализации RI-based variable selection использовались три меры: general dominance (GD), comprehensive relative importance (CRI) и усовершенствованная разность CRI.Z. Также включена мера marginal correlation (MC) для сравнения. Эти меры оценивают вклад каждого предиктора, как индивидуального, так и в составе комбинаций. Кроме того, для оценки эффективности проведены ряд экспериментов на синтетических и реальных данных. Модели, построенные на основе RI-ранжирования, сравнивались с классическими методами, включая lasso и relaxed lasso.
#### Результаты
Результаты экспериментов показали, что RI-меры превосходят marginal correlation в ранжировании предикторов, особенно при наличии слабых или подавленных предикторов. RI-меры также демонстрируют высокую точность в оценке вклада предикторов в зависимости от их комбинаций. Конкурентные тесты показали, что модели, построенные на RI-ранжировании, вы most-of-the-time выступают лучше, чем lasso и relaxed lasso, особенно в сложных случаях, когда многие методы другие никогда не работают. Например, в ситуациях с высокозависимыми предикторами, где lasso часто терпит неудачу, RI-методы показали свою эффективность.
#### Значимость
RI-based variable selection может использоваться во многих областях, где требуется эффективный выбор предикторов, например в биологии, финансах и других науках. Одним из основных преимуществ является высокая эффективность при работе с высокозависимыми данными, что делает его привлекательным для сложных задач. Кроме того, RI-методы экономичны в ресурсах и позволяют получить более точные результаты в ранжировании предикторов. Это создает новые возможности для расширения их применения в машинном обучении и статистике.
#### Выводы
Исследование показало, что RI-based variable selection является эффективным и конкурентоспособным методом для предикторского выбора, даже в самых сложных случаях. Он предлагает новый взгляд на роль RI в статистике и машинном обучении. Д
Abstract
Although conceptually related, variable selection and relative importance
(RI) analysis have been treated quite differently in the literature. While RI
is typically used for post-hoc model explanation, this paper explores its
potential for variable ranking and filter-based selection before model
creation. Specifically, we anticipate strong performance from the RI measures
because they incorporate both direct and combined effects of predictors,
addressing a key limitation of marginal correlation that ignores dependencies
among predictors. We implement and evaluate the RI-based variable selection
methods using general dominance (GD), comprehensive relative importance (CRI),
and a newly proposed, computationally efficient variant termed CRI.Z.
We first demonstrate how the RI measures more accurately rank the variables
than the marginal correlation, especially when there are suppressed or weak
predictors. We then show that predictive models built on these rankings are
highly competitive, often outperforming state-of-the-art methods such as the
lasso and relaxed lasso. The proposed RI-based methods are particularly
effective in challenging cases involving clusters of highly correlated
predictors, a setting known to cause failures in many benchmark methods.
Although lasso methods have dominated the recent literature on variable
selection, our study reveals that the RI-based method is a powerful and
competitive alternative. We believe these underutilized tools deserve greater
attention in statistics and machine learning communities. The code is available
at: https://github.com/tien-endotchang/RI-variable-selection.
Ссылки и действия
Дополнительные ресурсы: