Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning
2509.04734v1
cs.LG, cs.AI, cs.CV
2025-09-09
Авторы:
Jasmine Shone, Shaden Alshammari, Mark Hamilton, Zhening Li, William Freeman
Резюме на русском
## Контекст
Организация и анализ данных — ключевые задачи в машинном обучении, которые часто зависят от того, насколько эффективно мы можем измерить расстояние и сходство данных в различных пространствах представления. Информационный контрастный (I-Con) фреймворм показал, что более 23 методов обучения представлений подразумевают минимизацию KL-дивергенции между данными и выученными распределениями, которые описывают сходство точек данных. Однако KL-дивергенция может быть несогласованной с истинным целевым функционалом и иметь нежелательные свойства, такие как асимметрия и неограниченность, что создает проблемы в оптимизации. В этом контексте возникает потребность в развитии более гибких и точных подходов к измерению расстояний и сходств в представлениях.
## Метод
Мы предлагаем Beyond I-Con — расширенный фреймворк, который расширяет I-Con, исследуя альтернативные статистические дивергенции и сходственные меры. Методология включает в себя:
1. Использование различных дивергенций, таких как total variation (TV) и f-дивергенции, для измерения расстояний.
2. Оптимизацию потерь с использованием различных сходственных мер, таких как ангулярное и расстояние-подобное мерение.
3. Разработка гибкой архитектуры, позволяющей интегрировать эти модификации в существующие представления.
Наша модель адаптируется к различным задачам, включая неуправляемое кластеризация, управляемое супервизированное обучение и разнообразные задачи уменьшения размерности.
## Результаты
Мы провели эксперименты на широком круге задач и данных, включая DINO-ViT embeddings для unsupervised clustering, supervised contrastive learning и dimensionality reduction.
1. На задаче unsupervised clustering мы достигли state-of-the-art результатов, используя PMI с total variation (TV) вместо KL.
2. В supervised contrastive learning мы показали, что TV и distance-based similarity kernel превосходят KL и angular kernel.
3. На задачах dimensionality reduction, таких как SNE, наши модификации показали более качественные результаты и лучшую производительность на downstream tasks при замене KL на bounded f-divergence.
Эти результаты подтверждают важность рассмотрения различных дивергенций и мер сходства в оптимизации представлений.
## Значимость
Наши разработки могут быть применены в различных областях, включая computer vision, natural language processing и даже bioinformatics, где точное измерение расстояний и сходств критично. Наши подходы предлагают:
1. Улучшенную точность за счет использования более гибких дивергенций и мер сходства.
2. Решение проблем, связанных с asymmetry и unboundedness в KL-дивергенции.
3. Гибкость, позволяющую применять нашу модель к различным задачам.
Эти достоинства открывают новые горизонты для представлений и их применения в реальном мире.
## Выводы
Мы представили Beyond I-Con, расширенный
Abstract
The Information Contrastive (I-Con) framework revealed that over 23
representation learning methods implicitly minimize KL divergence between data
and learned distributions that encode similarities between data points.
However, a KL-based loss may be misaligned with the true objective, and
properties of KL divergence such as asymmetry and unboundedness may create
optimization challenges. We present Beyond I-Con, a framework that enables
systematic discovery of novel loss functions by exploring alternative
statistical divergences and similarity kernels. Key findings: (1) on
unsupervised clustering of DINO-ViT embeddings, we achieve state-of-the-art
results by modifying the PMI algorithm to use total variation (TV) distance;
(2) on supervised contrastive learning, we outperform the standard approach by
using TV and a distance-based similarity kernel instead of KL and an angular
kernel; (3) on dimensionality reduction, we achieve superior qualitative
results and better performance on downstream tasks than SNE by replacing KL
with a bounded f-divergence. Our results highlight the importance of
considering divergence and similarity kernel choices in representation learning
optimization.
Ссылки и действия
Дополнительные ресурсы: