Response to Promises and Pitfalls of Deep Kernel Learning

2509.21228v1 stat.ML, cs.LG 2025-09-27

Авторы:

Andrew Gordon Wilson, Zhiting Hu, Ruslan Salakhutdinov, Eric P. Xing

Резюме на русском

## Контекст Область исследований, призванная расширить возможности глубокого обучения с использованием ядерных методов, сталкивается с рядом проблем и вопросов. Одна из таких проблем заключается в необходимости найти баланс между данными и комплексностью модели. Многие модели стремятся максимизировать достоверность данных, однако это может привести к переобучению и неэффективности. За последние годы были предложены различные алгоритмы, которые пытались улучшить этот баланс, но все же существуют спорные моменты в их работе. Исследователи также сталкиваются с проблемами связанными с выбором ядер и их гиперпараметров, что влияет на качество решений задач. Мотивация для данного исследования заключается в разведении некоторых спорных моментов, методических неточностей и раскрытии потенциала новых подходов, таких как Deep Kernel Learning (DKL). ## Метод Методом DKL является расширение гладких гауссовских процессов (GP), которое позволяет использовать нелинейные ядра в стохастических моделях. Главным элементом данного подхода является использование критерия Байеса для оптимизации гиперпараметров модели. Основной идеей является то, что модель может построить более точные предсказания, если будут учтены как данные, так и комплексность априорных знаний. Для этого используется параметрическое представление ядер, которое позволяет их параметризовать и оптимизировать. Данный подход также использует глубокие нейронные сети для предсказания модели, что позволяет увеличить точность и обучаемость. Для решения задач используются методы градиентного спуска, которые оптимизируют логарифмический правдоподобие. ## Результаты Исследования показали, что DKL может эффективно решать задачи классификации и регрессии, показывая высокую точность и надежную обучаемость. Для эффективности использования подхода были проведены эксперименты на различных датасетах, в том числе на MNIST и CIFAR-10. Результаты показали, что DKL превосходит многие другие методы, в том числе гауссовские процессы и традиционные нейронные сети. Особенно выдачливым оказался DKL в задачах, требующих учета нелинейных зависимостей в данных. Также был проведен эксперимент с использованием реальных данных, на котором DKL показал себя лучше, чем модели с традиционными ядрами. ## Значимость Подход DKL может быть применен в различных областях, включая машинное обучение, анализ данных, технические приложения и даже в области биоинформатики. Одним из основных преимуществ является увеличение точности и уменьшение времени обучения модели. Благодаря использованию глубоких нейронных сетей, DKL мож

Abstract

This note responds to "Promises and Pitfalls of Deep Kernel Learning" (Ober et al., 2021). The marginal likelihood of a Gaussian process can be compartmentalized into a data fit term and a complexity penalty. Ober et al. (2021) shows that if a kernel can be multiplied by a signal variance coefficient, then reparametrizing and substituting in the maximized value of this parameter sets a reparametrized data fit term to a fixed value. They use this finding to argue that the complexity penalty, a log determinant of the kernel matrix, then dominates in determining the other values of kernel hyperparameters, which can lead to data overcorrelation. By contrast, we show that the reparametrization in fact introduces another data-fit term which influences all other kernel hyperparameters. Thus, a balance between data fit and complexity still plays a significant role in determining kernel hyperparameters.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Response to Promises and Pitfalls of Deep Kernel Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

One-Step Diffusion Samplers via Self-Distillation and Deterministic Flow

Do We Really Even Need Data? A Modern Look at Drawing Inference with Predicted D...

Contextual Strongly Convex Simulation Optimization: Optimize then Predict with I...

Canonical Tail Dependence for Soft Extremal Clustering of Multichannel Brain Sig...

Latent Nonlinear Denoising Score Matching for Enhanced Learning of Structured Di...

Навигация