Variational Garrote for Statistical Physics-based Sparse and Robust Variable Selection

2509.06383v1 cs.LG, physics.data-an 2025-09-10
Авторы:

Hyungjoon Soh, Dongha Lee, Vipul Periwal, Junghyo Jo

Резюме на русском

#### Контекст В настоящее время выбор ключевых переменных из высокомерных данных является важной задачей в области больших данных. Методы регрессии, ориентированные на малое число переменных, являются мощным инструментом для решения этой проблемы, так как они обеспечивают модельность, легкую для понимания и объяснения. В данной работе мы возобновляем исследования по статистической физике-ориентированному методу Variational Garrote (VG), который вводит специальные спин-переменные для выбора функций и использует вариационный инференс для получения лосса, оптимизируемого теоретически. Мы расширяем метод VG, используя современные технологии автоматической дифференциации, что позволяет эффективно оптимизировать и стабильно использовать этот подход. Мы проверили VG на основе как синтетических, так и реальных высокомерных данных. Наши результаты показывают, что VG обеспечивает более точный и устойчивый выбор переменных по сравнению с Ridge и LASSO регрессиями при различных уровнях спаса. Мы также выявили критическую точку, при которой добавление лишних переменных приводит к существенному снижению общей точности и повышению неопределенности выбранных переменных. Эта точка может служить практическим признаком для определения правильного числа важностных переменных. #### Метод Мы использовали вариационный подход для решения задачи выбора переменных в высокомерных данных. Метод VG включает в себя специальные спин-переменные, которые позволяют явно выделить важные функции. Мы использовали автоматическую дифференциацию для оптимизации лосса, что делает VG более удобным в использовании и эффективным в обработке больших данных. Мы проводили эксперименты с использованием как синтетических, так и реальных данных, чтобы изучить точность выбора переменных и устойчивость VG. Мы также проанализировали, как размер сетки влияет на качество модели и возможность выбора важностных переменных. #### Результаты Мы провели эксперименты с различными уровнями спаса и данными, чтобы проверить VG по сравнению с другими методами, такими как Ridge и LASSO регрессии. Наши результаты показали, что VG обеспечивает более высокую точность и устойчивость выбора переменных в ситуациях с высоким спасом. Мы также выявили критическую точку, в которой добавление лишних переменных приводит к существенному снижению качества модели. Этот переход может быть использован для определения правильного числа важностных переменных. Мы также проследили, как размер выборки и другие факторы влияют на эффективность VG, и установили, что он демонстрирует высокую точность в различных условиях. #### Значимость Метод VG может использоваться в различных приложениях, таких как сжа

Abstract

Selecting key variables from high-dimensional data is increasingly important in the era of big data. Sparse regression serves as a powerful tool for this purpose by promoting model simplicity and explainability. In this work, we revisit a valuable yet underutilized method, the statistical physics-based Variational Garrote (VG), which introduces explicit feature selection spin variables and leverages variational inference to derive a tractable loss function. We enhance VG by incorporating modern automatic differentiation techniques, enabling scalable and efficient optimization. We evaluate VG on both fully controllable synthetic datasets and complex real-world datasets. Our results demonstrate that VG performs especially well in highly sparse regimes, offering more consistent and robust variable selection than Ridge and LASSO regression across varying levels of sparsity. We also uncover a sharp transition: as superfluous variables are admitted, generalization degrades abruptly and the uncertainty of the selection variables increases. This transition point provides a practical signal for estimating the correct number of relevant variables, an insight we successfully apply to identify key predictors in real-world data. We expect that VG offers strong potential for sparse modeling across a wide range of applications, including compressed sensing and model pruning in machine learning.

Ссылки и действия

Связанные статьи

Detail Across Scales: Multi-Scale Enhancement for Full Spectrum Neural Represent...

## Контекст Implicit neural representations (INRs) представляют собой мощный подход к кодированию данных, использующий н...

2025-09-23

Stochastic Clock Attention for Aligning Continuous and Ordered Sequences

## Контекст Современные подходы в обработке и анализе данных часто сталкиваются с задачами построения моделей, которые о...

2025-09-20