IOCC: Aligning Semantic and Cluster Centers for Few-shot Short Text Clustering
2508.06126v1
stat.ME, cs.LG, stat.ML
2025-08-12
Авторы:
Jixuan Yin, Zhihao Yao, Wenshuai Huo, Xinmiao Yu, Xiaocheng Feng, Bo Li
Резюме на русском
## Контекст
Одной из основных задач машинного обучения является кластеризация данных, которая предназначена для группировки элементов похожих объектов. В кластеризации краткого текста встречаются свои трудности, так как отсутствие длинных синтаксических конструкций и богатого контекста затрудняет построение точных представлений. Традиционные методы часто сталкиваются с проблемой неточного определения кластерных центров, что приводит к нестабильным и менее точным результатам кластеризации. В статье предлагается IOCC, новая методика для решения проблемы кластеризации краткого текста, которая стремится улучшить точность и стабильность кластеризации.
## Метод
Основой IOCC лежат две ключевые компоненты: Interaction-enhanced Optimal Transport (IEOT) и Center-aware Contrastive Learning (CACL). IEOT использует семантические взаимодействия между отдельными примерами для генерации псевдо-меток. Эти псевдо-метки используются для создания псевдо-центров, которые приближаются к истинным семантическим центрам. CACL, в свою очередь, адаптирует представления текстов к этим псевдо-центрам, уменьшая разрыв между кластерными и семантическими центрами. Этот двухэтапный подход позволяет построить точные кластеры даже при ограниченном количестве обучающих примеров.
## Результаты
Проведенные эксперименты показали, что IOCC эффективно работает на большом количестве задач кластеризации, включая медицинскую и биоинформатическую области. На датасете Biomedical, IOCC показал улучшение до 7.34% в сравнении с предыдущими методами. Это демонстрирует его превосходство в стабильности и точности кластеризации. IOCC также значительно сокращает время обучения, что делает его применимым для решения реальных задач.
## Значимость
Результаты IOCC предлагаются в области кластеризации текстов, в том числе для задач краткого текста и медицинских текстов. Значительное улучшение производительности и стабильности делают IOCC привлекательным для сложных таких задач. Метод также может быть применен в других областях, где требуется адекватная кластеризация с ограниченным количеством данных.
## Выводы
Результаты IOCC показали, что его дизайн позволяет значительно улучшить кластеризацию краткого текста. Основные достижения включают улучшение точности, стабильности и эффективности. Дальнейшие исследования будут сфокусированы на расширении IOCC для работы с большим количеством данных и интеграции с другими моделями машинного обучения.
Abstract
In clustering tasks, it is essential to structure the feature space into
clear, well-separated distributions. However, because short text
representations have limited expressiveness, conventional methods struggle to
identify cluster centers that truly capture each category's underlying
semantics, causing the representations to be optimized in suboptimal
directions. To address this issue, we propose IOCC, a novel few-shot
contrastive learning method that achieves alignment between the cluster centers
and the semantic centers. IOCC consists of two key modules:
Interaction-enhanced Optimal Transport (IEOT) and Center-aware Contrastive
Learning (CACL). Specifically, IEOT incorporates semantic interactions between
individual samples into the conventional optimal transport problem, and
generate pseudo-labels. Based on these pseudo-labels, we aggregate
high-confidence samples to construct pseudo-centers that approximate the
semantic centers. Next, CACL optimizes text representations toward their
corresponding pseudo-centers. As training progresses, the collaboration between
the two modules gradually reduces the gap between cluster centers and semantic
centers. Therefore, the model will learn a high-quality distribution, improving
clustering performance. Extensive experiments on eight benchmark datasets show
that IOCC outperforms previous methods, achieving up to 7.34\% improvement on
challenging Biomedical dataset and also excelling in clustering stability and
efficiency. The code is available at:
https://anonymous.4open.science/r/IOCC-C438.