Comparison of Data Reduction Criteria for Online Gaussian Processes

2508.10815v1 cs.LG, stat.ML 2025-08-16
Авторы:

Thore Wietzke, Knut Graichen

Резюме на русском

## Контекст Данные играют важную роль в решении многих задач, от регрессии до системной идентификации. Одним из популярных подходов для решения таких задач являются гауссовы процессы (Gaussian Processes, GPs). Они отличаются своей гибкостью и возможностью оценивать неопределенность. Однако их вычислительная сложность ограничивает их применение в случаях, когда данные имеют ограниченный размер. В автоматических системах, где вводятся постоянно новые данные, вычислительная сложность становится еще более значительной. Для решения этой проблемы разрабатываются "онлайн" гауссовы процессы, которые стремятся оптимизировать вычислительные затраты, ограничивая число данных и удаляя ненужные. В данной работе предлагается создать комплексный анализ различных критериев удаления данных, которые могут быть использованы в онлайновых гауссовых процессах. Набор экспериментов выполнен на бенчмарк-функциях и реальных данных в сценариях системной идентификации. Это позволяет выделить основные тенденции и дать универсальные рекомендации по выбору критерия удаления для онлайновых гауссовых процессов. ## Метод В работе рассматриваются разные критерии удаления данных, которые могут использоваться в онлайновых гауссовых процессах. Эти критерии определяются по двум основным параметрам: сложности вычислений и эффективности удаления. Методология включает сравнение этих критериев на базе синтетических данных и реальных задач, включая идентификацию динамических систем. Для того чтобы обеспечить более глубокий анализ, в рамках работы также предлагаются дополнительные приемы, например, дополнительные критерии фильтрации данных, чтобы оптимизировать выбор данных для хранения в онлайновых гауссовых процессах. ## Результаты В работе проводился экспериментальный анализ различных критериев удаления данных в онлайновых гауссовых процессах. Это были проведены эксперименты на некоторых стандартных бенчмарк-функциях, где было продемонстрировано, как разные критерии удаления данных влияют на работу системы. Были также использованы реальные данные из сценариев системной идентификации, где показано, как разные критерии могут быть применены для повышения эффективности. Основные результаты показывают, что некоторые критерии дают более высокую эффективность, но могут иметь более высокие затраты на вычисления. Это позволяет сформировать рекомендации о том, какой критерий лучше применять в зависимости от того, какие задачи предъявляются к системе. ## Значимость Результаты работы могут быть применены в различных областях, где требуется онлайновая обработка данных,

Abstract

Gaussian Processes (GPs) are widely used for regression and system identification due to their flexibility and ability to quantify uncertainty. However, their computational complexity limits their applicability to small datasets. Moreover in a streaming scenario, more and more datapoints accumulate which is intractable even for Sparse GPs. Online GPs aim to alleviate this problem by e.g. defining a maximum budget of datapoints and removing redundant datapoints. This work provides a unified comparison of several reduction criteria, analyzing both their computational complexity and reduction behavior. The criteria are evaluated on benchmark functions and real-world datasets, including dynamic system identification tasks. Additionally, acceptance criteria are proposed to further filter out redundant datapoints. This work yields practical guidelines for choosing a suitable criterion for an online GP algorithm.

Ссылки и действия