Interpretable Kernels

2508.15932v1 stat.ML, cs.LG 2025-08-26
Авторы:

Patrick J. F. Groenen, Michael Greenacre

Резюме на русском

## Контекст Область исследования, связанная с использованием ядер для нелинейного предсказания, широко распространена в машинном обучении. Ядра, популяризированные в стохастических оптимизациях и использованные в классификации и регрессии, характеризуются тремя основными аспектами. Во-первых, каждая наблюдаемая точка преобразуется в более развернутый пространственный вектор. Во-вторых, регуляризатор штрафа ридж используется для уменьшения весов введенных в пространственный вектор. В-третьих, решение не определяется в направлении самого пространства, но в рамках двойственной задачи, оптимизируемой в пространстве наблюдений. Однако, этот подход имеет определенную проблему: восстановление интерпретируемости оригинальных фич. Эта проблема становится особенно важной при обработке больших массивов данных, где число фич больше числа наблюдений. Если такие проблемы не решены, то методы ядерной регрессии могут не приспособиться к более сложным задачам с высокоэкспериментальными моделями. В этой работе авторы предлагают новую технологию, которая позволяет восстановить интерпретируемость решений ядерной регрессии в случае широких массивов данных. ## Метод В статье предлагается новый подход к восстановлению интерпретируемости решений ядерных методов. Авторы предлагают новую архитектуру, которая позволяет выразить решение ядерной регрессии в терминах линейного комбинационного взвешенного выражения, в котором каждый наблюдаемый элемент матрицы является специальным метрическим штрафом. Эта новая модель делает возможным восстановить интерпретируемый результат в терминах оригинальных добавленных фичей. Авторы также раскрывают теорию, позволяющую использовать данный подход в случае, когда число фич меньше числа наблюдений, через методы аппроксимации матрицы ядерной регрессии и получения решения в виде гауссового процесса. Таким образом, авторы предлагают новый метод, который может быть использован в широком круге задач машинного обучения. ## Результаты В работе проведены эксперименты, которые подтверждают эффективность нового подхода к восстановлению интерпретации решений ядерной регрессии. Авторы использовали различные машинные обучения задачи, в том числе регрессию и классификацию, с разным размером данных. На основе этих экспериментов было показано, что новый метод действительно позволяет восстановить интерпретируемый результат в терминах оригинальных фичей. Было также продемонстрировано, что полученные результаты предлагаемым методом не хуже, чем

Abstract

The use of kernels for nonlinear prediction is widespread in machine learning. They have been popularized in support vector machines and used in kernel ridge regression, amongst others. Kernel methods share three aspects. First, instead of the original matrix of predictor variables or features, each observation is mapped into an enlarged feature space. Second, a ridge penalty term is used to shrink the coefficients on the features in the enlarged feature space. Third, the solution is not obtained in this enlarged feature space, but through solving a dual problem in the observation space. A major drawback in the present use of kernels is that the interpretation in terms of the original features is lost. In this paper, we argue that in the case of a wide matrix of features, where there are more features than observations, the kernel solution can be re-expressed in terms of a linear combination of the original matrix of features and a ridge penalty that involves a special metric. Consequently, the exact same predicted values can be obtained as a weighted linear combination of the features in the usual manner and thus can be interpreted. In the case where the number of features is less than the number of observations, we discuss a least-squares approximation of the kernel matrix that still allows the interpretation in terms of a linear combination. It is shown that these results hold for any function of a linear combination that minimizes the coefficients and has a ridge penalty on these coefficients, such as in kernel logistic regression and kernel Poisson regression. This work makes a contribution to interpretable artificial intelligence.

Ссылки и действия