Fast kernel methods: Sobolev, physics-informed, and additive models

2509.02649v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH 2025-09-06

Авторы:

Nathan Doumèche, Francis Bach, Gérard Biau, Claire Boyer

Резюме на русском

## Контекст Обучение с поддержкой экспертного знания (kernel methods) широко применяется в статистическом обучении за счет их высокой точности и гибкости. Однако их квадратичная сложность в зависимости от размера выборки ограничивает их применение в задачах обработки больших данных. Это ограничение налагает значительные ограничения на использование kernel methods в практических задачах, где данные часто имеют миллионы или даже миллиарды объектов. Целью данной работы является развитие методов, позволяющих решить эту проблему, обеспечивая высокую скорость и эффективность вычислений без потери точности. ## Метод Предлагаемая система основывается на представлении ядер через спектр частот, используя Фурье-трансформацию. Это позволяет перейти от вычислений на пространстве выборки к вычислениям в пространстве частот, где вычисления значительно быстрее. Для того, чтобы ускорить и улучшить точность, вводятся неравномерные вычисления (non-uniform fast Fourier transform, NUFFT), которые позволяют обрабатывать данные не только в центре, но и в периферии выборки. Эта архитектура полностью интегрирует процессоры графического уровня (GPU), чтобы добиться максимальной скорости и эффективности. Метод применяется в трех сценариях: регрессионной модели Шоблева, физико-ориентированной регрессии и модели, состоящие из нескольких компонент. ## Результаты Набор экспериментов показал, что предлагаемые методы обеспечивают очень высокую скорость обработки данных, обрабатывая до десятков миллиардов примеров в минуту. Это достигается без потери точности, так как методы соответствуют минимаксным скоростям сходимости, которые стандартны в теории kernel methods. Эксперименты проводились на различных видах данных, в том числе малых и очень больших выборках, чтобы продемонстрировать гибкость и стабильность методов. ## Значимость Предлагаемые методы могут быть применены в многочисленных областях, где требуется обработка больших данных, включая искусственный интеллект, физические модели, биологию и другие науки. Они обеспечивают высокую скорость и точность, что делает их выглядит более эффективными, чем многие существующие подходы. Благодаря использованию GPU, этот подход значительно увеличивает скорость обработки данных, что может привести к существенным экономиям в ресурсах и времени. ## Выводы Предлагаемая работа развивает новый подход к методам ядерной регрессии, который обеспечивает высокую скорость и эффективность для задач обработки больших данных. Результаты экспериментов подтверждают эффективность метода. Будущие исследования будут сфокуси

Abstract

Kernel methods are powerful tools in statistical learning, but their cubic complexity in the sample size n limits their use on large-scale datasets. In this work, we introduce a scalable framework for kernel regression with O(n log n) complexity, fully leveraging GPU acceleration. The approach is based on a Fourier representation of kernels combined with non-uniform fast Fourier transforms (NUFFT), enabling exact, fast, and memory-efficient computations. We instantiate our framework in three settings: Sobolev kernel regression, physics-informed regression, and additive models. When known, the proposed estimators are shown to achieve minimax convergence rates, consistent with classical kernel theory. Empirical results demonstrate that our methods can process up to tens of billions of samples within minutes, providing both statistical accuracy and computational scalability. These contributions establish a flexible approach, paving the way for the routine application of kernel methods in large-scale learning tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fast kernel methods: Sobolev, physics-informed, and additive models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Minimax-Optimal Two-Sample Test with Sliced Wasserstein

Foresighted Online Policy Optimization with Interference

Transfer Learning with Distance Covariance for Random Forest: Error Bounds and a...

One-shot Conditional Sampling: MMD meets Nearest Neighbors

Bias-variance Tradeoff in Tensor Estimation

Навигация