Kernel K-means clustering of distributional data
2509.18037v1
stat.ML, cs.LG, stat.CO
2025-09-24
Авторы:
Amparo Baíllo, Jose R. Berrendero, Martín Sánchez-Signorini
Резюме на русском
## Контекст
Исследование посвящено проблеме кластеризации выборок распределений вероятности в $\mathbb R^p$, где $p>1$. Такие распределения часто встречаются в сложных областях данных, таких как геометрическое образование изображений и сингулярные распределения. Несмотря на их важность, кластеризация распределений остается недостаточно исследована. Основная цель работы — развить эффективный метод кластеризации, который может быть применен в таких областях.
## Метод
Метод кластеризации основывается на использовании кернельных методов, а именно, реproducing kernel Hilbert space (RKHS). Каждое распределение представляется в виде своего ядерного ожидания в $\mathcal H$. Данные, представленные в RKHS, классифицируются с помощью алгоритма К-средних ($K$-means). Основной вклад метода заключается в том, что он использует положительно определенный ядерный метод $k$ для преобразования распределений в пространство RKHS, где процедура кластеризации выполняется. Этот подход является простым, гибким и может использоваться для кластеризации выборок распределений в высоком измерении $p$.
## Результаты
Работа включает моделирование и экспериментирование с алгоритмом $K$-means на кернельных представлениях распределений. Для этого использовались синтетические данные и реальная выборка SAR-изображений. Отдельное внимание уделено выбору ядра и его гиперпараметров, так как это влияет на качество кластеризации. Результаты симуляций показали хорошую работу метода в различных условиях, в том числе при кластеризации высокомерных распределений.
## Значимость
Предложенный подход может применяться в различных областях, где кластеризация распределений важна. Например, в обработке изображений, геологии, финансах, и других. Одним из преимуществ является то, что он легко адаптируется к различным типам распределений и имеет высокую скорость кластеризации. Это делает его полезным для решения практических задач.
## Выводы
Работа предлагает эффективный метод кластеризации распределений, основанный на ядерном подходе. Проведенные эксперименты показали высокую эффективность метода в кластеризации высокомерных распределений. В дальнейшем, можно рассмотреть адаптацию этого метода для решения других задач кластеризации, в том числе в сложных высокомерных пространствах.
Abstract
We consider the problem of clustering a sample of probability distributions
from a random distribution on $\mathbb R^p$. Our proposed partitioning method
makes use of a symmetric, positive-definite kernel $k$ and its associated
reproducing kernel Hilbert space (RKHS) $\mathcal H$. By mapping each
distribution to its corresponding kernel mean embedding in $\mathcal H$, we
obtain a sample in this RKHS where we carry out the $K$-means clustering
procedure, which provides an unsupervised classification of the original
sample. The procedure is simple and computationally feasible even for dimension
$p>1$. The simulation studies provide insight into the choice of the kernel and
its tuning parameter. The performance of the proposed clustering procedure is
illustrated on a collection of Synthetic Aperture Radar (SAR) images.