Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning

2509.04734v1 cs.LG, cs.AI, cs.CV 2025-09-09
Авторы:

Jasmine Shone, Shaden Alshammari, Mark Hamilton, Zhening Li, William Freeman

Резюме на русском

## Контекст Организация и анализ данных — ключевые задачи в машинном обучении, которые часто зависят от того, насколько эффективно мы можем измерить расстояние и сходство данных в различных пространствах представления. Информационный контрастный (I-Con) фреймворм показал, что более 23 методов обучения представлений подразумевают минимизацию KL-дивергенции между данными и выученными распределениями, которые описывают сходство точек данных. Однако KL-дивергенция может быть несогласованной с истинным целевым функционалом и иметь нежелательные свойства, такие как асимметрия и неограниченность, что создает проблемы в оптимизации. В этом контексте возникает потребность в развитии более гибких и точных подходов к измерению расстояний и сходств в представлениях. ## Метод Мы предлагаем Beyond I-Con — расширенный фреймворк, который расширяет I-Con, исследуя альтернативные статистические дивергенции и сходственные меры. Методология включает в себя: 1. Использование различных дивергенций, таких как total variation (TV) и f-дивергенции, для измерения расстояний. 2. Оптимизацию потерь с использованием различных сходственных мер, таких как ангулярное и расстояние-подобное мерение. 3. Разработка гибкой архитектуры, позволяющей интегрировать эти модификации в существующие представления. Наша модель адаптируется к различным задачам, включая неуправляемое кластеризация, управляемое супервизированное обучение и разнообразные задачи уменьшения размерности. ## Результаты Мы провели эксперименты на широком круге задач и данных, включая DINO-ViT embeddings для unsupervised clustering, supervised contrastive learning и dimensionality reduction. 1. На задаче unsupervised clustering мы достигли state-of-the-art результатов, используя PMI с total variation (TV) вместо KL. 2. В supervised contrastive learning мы показали, что TV и distance-based similarity kernel превосходят KL и angular kernel. 3. На задачах dimensionality reduction, таких как SNE, наши модификации показали более качественные результаты и лучшую производительность на downstream tasks при замене KL на bounded f-divergence. Эти результаты подтверждают важность рассмотрения различных дивергенций и мер сходства в оптимизации представлений. ## Значимость Наши разработки могут быть применены в различных областях, включая computer vision, natural language processing и даже bioinformatics, где точное измерение расстояний и сходств критично. Наши подходы предлагают: 1. Улучшенную точность за счет использования более гибких дивергенций и мер сходства. 2. Решение проблем, связанных с asymmetry и unboundedness в KL-дивергенции. 3. Гибкость, позволяющую применять нашу модель к различным задачам. Эти достоинства открывают новые горизонты для представлений и их применения в реальном мире. ## Выводы Мы представили Beyond I-Con, расширенный

Abstract

The Information Contrastive (I-Con) framework revealed that over 23 representation learning methods implicitly minimize KL divergence between data and learned distributions that encode similarities between data points. However, a KL-based loss may be misaligned with the true objective, and properties of KL divergence such as asymmetry and unboundedness may create optimization challenges. We present Beyond I-Con, a framework that enables systematic discovery of novel loss functions by exploring alternative statistical divergences and similarity kernels. Key findings: (1) on unsupervised clustering of DINO-ViT embeddings, we achieve state-of-the-art results by modifying the PMI algorithm to use total variation (TV) distance; (2) on supervised contrastive learning, we outperform the standard approach by using TV and a distance-based similarity kernel instead of KL and an angular kernel; (3) on dimensionality reduction, we achieve superior qualitative results and better performance on downstream tasks than SNE by replacing KL with a bounded f-divergence. Our results highlight the importance of considering divergence and similarity kernel choices in representation learning optimization.

Ссылки и действия