Kernel K-means clustering of distributional data

2509.18037v1 stat.ML, cs.LG, stat.CO 2025-09-24

Авторы:

Amparo Baíllo, Jose R. Berrendero, Martín Sánchez-Signorini

Резюме на русском

## Контекст Исследование посвящено проблеме кластеризации выборок распределений вероятности в $\mathbb R^p$, где $p>1$. Такие распределения часто встречаются в сложных областях данных, таких как геометрическое образование изображений и сингулярные распределения. Несмотря на их важность, кластеризация распределений остается недостаточно исследована. Основная цель работы — развить эффективный метод кластеризации, который может быть применен в таких областях. ## Метод Метод кластеризации основывается на использовании кернельных методов, а именно, реproducing kernel Hilbert space (RKHS). Каждое распределение представляется в виде своего ядерного ожидания в $\mathcal H$. Данные, представленные в RKHS, классифицируются с помощью алгоритма К-средних ($K$-means). Основной вклад метода заключается в том, что он использует положительно определенный ядерный метод $k$ для преобразования распределений в пространство RKHS, где процедура кластеризации выполняется. Этот подход является простым, гибким и может использоваться для кластеризации выборок распределений в высоком измерении $p$. ## Результаты Работа включает моделирование и экспериментирование с алгоритмом $K$-means на кернельных представлениях распределений. Для этого использовались синтетические данные и реальная выборка SAR-изображений. Отдельное внимание уделено выбору ядра и его гиперпараметров, так как это влияет на качество кластеризации. Результаты симуляций показали хорошую работу метода в различных условиях, в том числе при кластеризации высокомерных распределений. ## Значимость Предложенный подход может применяться в различных областях, где кластеризация распределений важна. Например, в обработке изображений, геологии, финансах, и других. Одним из преимуществ является то, что он легко адаптируется к различным типам распределений и имеет высокую скорость кластеризации. Это делает его полезным для решения практических задач. ## Выводы Работа предлагает эффективный метод кластеризации распределений, основанный на ядерном подходе. Проведенные эксперименты показали высокую эффективность метода в кластеризации высокомерных распределений. В дальнейшем, можно рассмотреть адаптацию этого метода для решения других задач кластеризации, в том числе в сложных высокомерных пространствах.

Abstract

We consider the problem of clustering a sample of probability distributions from a random distribution on $\mathbb R^p$. Our proposed partitioning method makes use of a symmetric, positive-definite kernel $k$ and its associated reproducing kernel Hilbert space (RKHS) $\mathcal H$. By mapping each distribution to its corresponding kernel mean embedding in $\mathcal H$, we obtain a sample in this RKHS where we carry out the $K$-means clustering procedure, which provides an unsupervised classification of the original sample. The procedure is simple and computationally feasible even for dimension $p>1$. The simulation studies provide insight into the choice of the kernel and its tuning parameter. The performance of the proposed clustering procedure is illustrated on a collection of Synthetic Aperture Radar (SAR) images.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Kernel K-means clustering of distributional data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Optimization and Regularization Under Arbitrary Objectives

Learning Paths for Dynamic Measure Transport: A Control Perspective

Online Bayesian Experimental Design for Partially Observed Dynamical Systems

Learning Latent Energy-Based Models via Interacting Particle Langevin Dynamics

Stochastic Path Planning in Correlated Obstacle Fields

Навигация