Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space
2509.07289v1
stat.ML, cs.CV, cs.LG
2025-09-11
Авторы:
M. Hadi Sepanj, Benyamin Ghojogh, Paul Fieguth
Резюме на русском
## Контекст
Self-supervised learning (SSL) является важной областью исследований в машинном обучении, которая позволяет извлекать представления без опоры на метки. Основная идея SSL заключается в оптимизации геометрических целей, таких как устойчивость к аугментациям, сохранение дисперсии и корреляционная декорреляция фич. Несмотря на эффективность SSL, большинство методов работают в Евклидовом пространстве, ограничивая их возможность локализовать и логически выразить нелинейные зависимости и геометрические структуры. Эта проблема становится особенно актуальной при работе с данными, характеризующимися сложной геометрической структурой. Целью данного исследования является развитие нового фреймворка SSL, который может эффективно работать в пространстве Репродуктивного Хильбертового Пространства (RKHS), обеспечивая более тонкую обработку нелинейных характеристик.
## Метод
Предлагаемый Kernel VICReg является расширением существующего VICReg-подхода, переводя его в RKHS. Фундаментальная идея состоит в том, что каждый компонент VICReg-функционала (вариация, инвариантность и корреляция) переносится в RKHS с помощью ядерных функций. Это позволяет обобщить VICReg таким образом, что он может обрабатывать нелинейные структуры без непосредственного применения методик матричных преобразований. В Kernel VICReg широко используется двойная центрированная норма Хильберта-Шмидта, которая позволяет управлять геометрическими свойствами представлений. Особенностью нового подхода является его универсальность и гибкость при работе со сложными данными, даже при ограниченном объеме данных.
## Результаты
Проведенные эксперименты посвящены сравнению Kernel VICReg с его евклидовым аналогом на различных датасетах, включая MNIST, CIFAR-10, STL-10, TinyImageNet и ImageNet100. Результаты показали, что Kernel VICReg не только избегает представительного коллапса, но и показывает более высокую точность, особенно на датасетах, где геометрическая сложность высока. Например, на TinyImageNet и ImageNet100, Kernel VICReg показал значительные улучшения в отношении точности и структуры представлений. Кроме того, UMAP-визуализации показали, что представления, полученные с помощью Kernel VICReg, обладают более высоким уровнем изометрии и более четкими классовыми границами, что свидетельствует о более эффективной обработке нелинейных структур.
## Значимость
Kernel VICReg открывает новые горизонты для применения SSL в областях, где данные имеют сложную геометрическую структуру. Его можно применить в таких областях, как глубокое обучение для медицины, геологии или текстовых данных, где нелинейные зависимости яв
Abstract
Self-supervised learning (SSL) has emerged as a powerful paradigm for
representation learning by optimizing geometric objectives--such as invariance
to augmentations, variance preservation, and feature decorrelation--without
requiring labels. However, most existing methods operate in Euclidean space,
limiting their ability to capture nonlinear dependencies and geometric
structures. In this work, we propose Kernel VICReg, a novel self-supervised
learning framework that lifts the VICReg objective into a Reproducing Kernel
Hilbert Space (RKHS). By kernelizing each term of the loss-variance,
invariance, and covariance--we obtain a general formulation that operates on
double-centered kernel matrices and Hilbert-Schmidt norms, enabling nonlinear
feature learning without explicit mappings.
We demonstrate that Kernel VICReg not only avoids representational collapse
but also improves performance on tasks with complex or small-scale data.
Empirical evaluations across MNIST, CIFAR-10, STL-10, TinyImageNet, and
ImageNet100 show consistent gains over Euclidean VICReg, with particularly
strong improvements on datasets where nonlinear structures are prominent. UMAP
visualizations further confirm that kernel-based embeddings exhibit better
isometry and class separation. Our results suggest that kernelizing SSL
objectives is a promising direction for bridging classical kernel methods with
modern representation learning.
Ссылки и действия
Дополнительные ресурсы: