Fast kernel methods: Sobolev, physics-informed, and additive models
2509.02649v1
stat.ML, cs.LG, math.ST, stat.ME, stat.TH
2025-09-06
Авторы:
Nathan Doumèche, Francis Bach, Gérard Biau, Claire Boyer
Резюме на русском
## Контекст
Обучение с поддержкой экспертного знания (kernel methods) широко применяется в статистическом обучении за счет их высокой точности и гибкости. Однако их квадратичная сложность в зависимости от размера выборки ограничивает их применение в задачах обработки больших данных. Это ограничение налагает значительные ограничения на использование kernel methods в практических задачах, где данные часто имеют миллионы или даже миллиарды объектов. Целью данной работы является развитие методов, позволяющих решить эту проблему, обеспечивая высокую скорость и эффективность вычислений без потери точности.
## Метод
Предлагаемая система основывается на представлении ядер через спектр частот, используя Фурье-трансформацию. Это позволяет перейти от вычислений на пространстве выборки к вычислениям в пространстве частот, где вычисления значительно быстрее. Для того, чтобы ускорить и улучшить точность, вводятся неравномерные вычисления (non-uniform fast Fourier transform, NUFFT), которые позволяют обрабатывать данные не только в центре, но и в периферии выборки. Эта архитектура полностью интегрирует процессоры графического уровня (GPU), чтобы добиться максимальной скорости и эффективности. Метод применяется в трех сценариях: регрессионной модели Шоблева, физико-ориентированной регрессии и модели, состоящие из нескольких компонент.
## Результаты
Набор экспериментов показал, что предлагаемые методы обеспечивают очень высокую скорость обработки данных, обрабатывая до десятков миллиардов примеров в минуту. Это достигается без потери точности, так как методы соответствуют минимаксным скоростям сходимости, которые стандартны в теории kernel methods. Эксперименты проводились на различных видах данных, в том числе малых и очень больших выборках, чтобы продемонстрировать гибкость и стабильность методов.
## Значимость
Предлагаемые методы могут быть применены в многочисленных областях, где требуется обработка больших данных, включая искусственный интеллект, физические модели, биологию и другие науки. Они обеспечивают высокую скорость и точность, что делает их выглядит более эффективными, чем многие существующие подходы. Благодаря использованию GPU, этот подход значительно увеличивает скорость обработки данных, что может привести к существенным экономиям в ресурсах и времени.
## Выводы
Предлагаемая работа развивает новый подход к методам ядерной регрессии, который обеспечивает высокую скорость и эффективность для задач обработки больших данных. Результаты экспериментов подтверждают эффективность метода. Будущие исследования будут сфокуси
Abstract
Kernel methods are powerful tools in statistical learning, but their cubic
complexity in the sample size n limits their use on large-scale datasets. In
this work, we introduce a scalable framework for kernel regression with O(n log
n) complexity, fully leveraging GPU acceleration. The approach is based on a
Fourier representation of kernels combined with non-uniform fast Fourier
transforms (NUFFT), enabling exact, fast, and memory-efficient computations. We
instantiate our framework in three settings: Sobolev kernel regression,
physics-informed regression, and additive models. When known, the proposed
estimators are shown to achieve minimax convergence rates, consistent with
classical kernel theory. Empirical results demonstrate that our methods can
process up to tens of billions of samples within minutes, providing both
statistical accuracy and computational scalability. These contributions
establish a flexible approach, paving the way for the routine application of
kernel methods in large-scale learning tasks.