Sparse minimum Redundancy Maximum Relevance for feature selection

2508.18901v1 stat.ML, cs.LG, stat.ME 2025-08-28

Авторы:

Peter Naylor, Benjamin Poignard, Héctor Climente-González, Makoto Yamada

Резюме на русском

#### Контекст Обработка данных часто связана с использованием огромных наборов признаков, которые могут включать много нерелевантных и взаимосвязанных компонент. Это затрудняет использование многих алгоритмов машинного обучения, так как они могут сталкиваться с проблемами, такими как переобучение и высокая сложность вычислений. Целью многих методов feature selection является определение наиболее важных признаков, уменьшение размера набора данных и улучшение эффективности и точности алгоритмов. Однако, существующие методы часто не учитывают взаимозависимости между признаками или неэффективно используют зависимости с целевой переменной. #### Метод Предлагаемый метод, названный **Sparsified Minimum Redundancy Maximum Relevance (SmRMR)**, является подходом к feature selection, который учитывает как взаимосвязи между признаками, так и взаимосвязь между признаками и целевой переменной. Метод основан на минимуме ряда штрафов, использующих регуляризаторы, не являющиеся конвексивными, для отбора фичей, которые могут быть не значимы. Он использует не только зависимость между признаками (релевантность), но и их независимость от целевой переменной, чтобы идентифицировать "активные" признаки. Алгоритм построен на базе неконвексивного регуляризатора, который позволяет строить модели с меньшим числом признаков, но более точными. #### Результаты Чтобы проверить эффективность метода, проведены эксперименты с использованием синтетических данных и реальных данных, в которых были показаны преимущества SmRMR в сравнении с другими методами, такими как HSIC-LASSO. Данные эксперименты показали, что SmRMR не только способен определять активные признаки, но и уменьшает число ненужных признаков. Метод показал хорошие результаты в ситуациях, когда много признаков являются неактивными, что может повысить точность алгоритмов обучения. Однако, SmRMR более склонен к более консервативному выбору признаков, что в некоторых случаях может быть недостатком. #### Значимость Заявленный метод может быть использован в различных областях, где требуется выборка признаков, таких как биологическая инженерия, текстовый анализ, машинное обучение. Одним из преимуществ является то, что он не требует явного указания числа признаков для сохранения, в отличие от многих других методов. Также он показал хорошую способность идентифицировать неактивные признаки, что может сильно повысить эффективность моделей. Будущие исследования могут быть направлены на усовершенствование метода для обработки более сложных данных, таких как данные с высокой размерностью. #### Выводы Метод SmRMR является эффективным подходом к feature selection, который учитыва

Abstract

We propose a feature screening method that integrates both feature-feature and feature-target relationships. Inactive features are identified via a penalized minimum Redundancy Maximum Relevance (mRMR) procedure, which is the continuous version of the classic mRMR penalized by a non-convex regularizer, and where the parameters estimated as zero coefficients represent the set of inactive features. We establish the conditions under which zero coefficients are correctly identified to guarantee accurate recovery of inactive features. We introduce a multi-stage procedure based on the knockoff filter enabling the penalized mRMR to discard inactive features while controlling the false discovery rate (FDR). Our method performs comparably to HSIC-LASSO but is more conservative in the number of selected features. It only requires setting an FDR threshold, rather than specifying the number of features to retain. The effectiveness of the method is illustrated through simulations and real-world datasets. The code to reproduce this work is available on the following GitHub: https://github.com/PeterJackNaylor/SmRMR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sparse minimum Redundancy Maximum Relevance for feature selection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Sensitivity Approach to Causal Inference Under Limited Overlap

A PLS-Integrated LASSO Method with Application in Index Tracking

An operator splitting analysis of Wasserstein--Fisher--Rao gradient flows

Uncertainty of Network Topology with Applications to Out-of-Distribution Detecti...

The Unified Non-Convex Framework for Robust Causal Inference: Overcoming the Gau...

Навигация