Variational Garrote for Statistical Physics-based Sparse and Robust Variable Selection
2509.06383v1
cs.LG, physics.data-an
2025-09-10
Авторы:
Hyungjoon Soh, Dongha Lee, Vipul Periwal, Junghyo Jo
Резюме на русском
#### Контекст
В настоящее время выбор ключевых переменных из высокомерных данных является важной задачей в области больших данных. Методы регрессии, ориентированные на малое число переменных, являются мощным инструментом для решения этой проблемы, так как они обеспечивают модельность, легкую для понимания и объяснения. В данной работе мы возобновляем исследования по статистической физике-ориентированному методу Variational Garrote (VG), который вводит специальные спин-переменные для выбора функций и использует вариационный инференс для получения лосса, оптимизируемого теоретически. Мы расширяем метод VG, используя современные технологии автоматической дифференциации, что позволяет эффективно оптимизировать и стабильно использовать этот подход. Мы проверили VG на основе как синтетических, так и реальных высокомерных данных. Наши результаты показывают, что VG обеспечивает более точный и устойчивый выбор переменных по сравнению с Ridge и LASSO регрессиями при различных уровнях спаса. Мы также выявили критическую точку, при которой добавление лишних переменных приводит к существенному снижению общей точности и повышению неопределенности выбранных переменных. Эта точка может служить практическим признаком для определения правильного числа важностных переменных.
#### Метод
Мы использовали вариационный подход для решения задачи выбора переменных в высокомерных данных. Метод VG включает в себя специальные спин-переменные, которые позволяют явно выделить важные функции. Мы использовали автоматическую дифференциацию для оптимизации лосса, что делает VG более удобным в использовании и эффективным в обработке больших данных. Мы проводили эксперименты с использованием как синтетических, так и реальных данных, чтобы изучить точность выбора переменных и устойчивость VG. Мы также проанализировали, как размер сетки влияет на качество модели и возможность выбора важностных переменных.
#### Результаты
Мы провели эксперименты с различными уровнями спаса и данными, чтобы проверить VG по сравнению с другими методами, такими как Ridge и LASSO регрессии. Наши результаты показали, что VG обеспечивает более высокую точность и устойчивость выбора переменных в ситуациях с высоким спасом. Мы также выявили критическую точку, в которой добавление лишних переменных приводит к существенному снижению качества модели. Этот переход может быть использован для определения правильного числа важностных переменных. Мы также проследили, как размер выборки и другие факторы влияют на эффективность VG, и установили, что он демонстрирует высокую точность в различных условиях.
#### Значимость
Метод VG может использоваться в различных приложениях, таких как сжа
Abstract
Selecting key variables from high-dimensional data is increasingly important
in the era of big data. Sparse regression serves as a powerful tool for this
purpose by promoting model simplicity and explainability. In this work, we
revisit a valuable yet underutilized method, the statistical physics-based
Variational Garrote (VG), which introduces explicit feature selection spin
variables and leverages variational inference to derive a tractable loss
function. We enhance VG by incorporating modern automatic differentiation
techniques, enabling scalable and efficient optimization. We evaluate VG on
both fully controllable synthetic datasets and complex real-world datasets. Our
results demonstrate that VG performs especially well in highly sparse regimes,
offering more consistent and robust variable selection than Ridge and LASSO
regression across varying levels of sparsity. We also uncover a sharp
transition: as superfluous variables are admitted, generalization degrades
abruptly and the uncertainty of the selection variables increases. This
transition point provides a practical signal for estimating the correct number
of relevant variables, an insight we successfully apply to identify key
predictors in real-world data. We expect that VG offers strong potential for
sparse modeling across a wide range of applications, including compressed
sensing and model pruning in machine learning.
Ссылки и действия
Дополнительные ресурсы: