Sparse minimum Redundancy Maximum Relevance for feature selection
2508.18901v1
stat.ML, cs.LG, stat.ME
2025-08-28
Авторы:
Peter Naylor, Benjamin Poignard, Héctor Climente-González, Makoto Yamada
Резюме на русском
#### Контекст
Обработка данных часто связана с использованием огромных наборов признаков, которые могут включать много нерелевантных и взаимосвязанных компонент. Это затрудняет использование многих алгоритмов машинного обучения, так как они могут сталкиваться с проблемами, такими как переобучение и высокая сложность вычислений. Целью многих методов feature selection является определение наиболее важных признаков, уменьшение размера набора данных и улучшение эффективности и точности алгоритмов. Однако, существующие методы часто не учитывают взаимозависимости между признаками или неэффективно используют зависимости с целевой переменной.
#### Метод
Предлагаемый метод, названный **Sparsified Minimum Redundancy Maximum Relevance (SmRMR)**, является подходом к feature selection, который учитывает как взаимосвязи между признаками, так и взаимосвязь между признаками и целевой переменной. Метод основан на минимуме ряда штрафов, использующих регуляризаторы, не являющиеся конвексивными, для отбора фичей, которые могут быть не значимы. Он использует не только зависимость между признаками (релевантность), но и их независимость от целевой переменной, чтобы идентифицировать "активные" признаки. Алгоритм построен на базе неконвексивного регуляризатора, который позволяет строить модели с меньшим числом признаков, но более точными.
#### Результаты
Чтобы проверить эффективность метода, проведены эксперименты с использованием синтетических данных и реальных данных, в которых были показаны преимущества SmRMR в сравнении с другими методами, такими как HSIC-LASSO. Данные эксперименты показали, что SmRMR не только способен определять активные признаки, но и уменьшает число ненужных признаков. Метод показал хорошие результаты в ситуациях, когда много признаков являются неактивными, что может повысить точность алгоритмов обучения. Однако, SmRMR более склонен к более консервативному выбору признаков, что в некоторых случаях может быть недостатком.
#### Значимость
Заявленный метод может быть использован в различных областях, где требуется выборка признаков, таких как биологическая инженерия, текстовый анализ, машинное обучение. Одним из преимуществ является то, что он не требует явного указания числа признаков для сохранения, в отличие от многих других методов. Также он показал хорошую способность идентифицировать неактивные признаки, что может сильно повысить эффективность моделей. Будущие исследования могут быть направлены на усовершенствование метода для обработки более сложных данных, таких как данные с высокой размерностью.
#### Выводы
Метод SmRMR является эффективным подходом к feature selection, который учитыва
Abstract
We propose a feature screening method that integrates both feature-feature
and feature-target relationships. Inactive features are identified via a
penalized minimum Redundancy Maximum Relevance (mRMR) procedure, which is the
continuous version of the classic mRMR penalized by a non-convex regularizer,
and where the parameters estimated as zero coefficients represent the set of
inactive features. We establish the conditions under which zero coefficients
are correctly identified to guarantee accurate recovery of inactive features.
We introduce a multi-stage procedure based on the knockoff filter enabling the
penalized mRMR to discard inactive features while controlling the false
discovery rate (FDR). Our method performs comparably to HSIC-LASSO but is more
conservative in the number of selected features. It only requires setting an
FDR threshold, rather than specifying the number of features to retain. The
effectiveness of the method is illustrated through simulations and real-world
datasets. The code to reproduce this work is available on the following GitHub:
https://github.com/PeterJackNaylor/SmRMR.