IOCC: Aligning Semantic and Cluster Centers for Few-shot Short Text Clustering

2508.06126v1 stat.ME, cs.LG, stat.ML 2025-08-12
Авторы:

Jixuan Yin, Zhihao Yao, Wenshuai Huo, Xinmiao Yu, Xiaocheng Feng, Bo Li

Резюме на русском

## Контекст Одной из основных задач машинного обучения является кластеризация данных, которая предназначена для группировки элементов похожих объектов. В кластеризации краткого текста встречаются свои трудности, так как отсутствие длинных синтаксических конструкций и богатого контекста затрудняет построение точных представлений. Традиционные методы часто сталкиваются с проблемой неточного определения кластерных центров, что приводит к нестабильным и менее точным результатам кластеризации. В статье предлагается IOCC, новая методика для решения проблемы кластеризации краткого текста, которая стремится улучшить точность и стабильность кластеризации. ## Метод Основой IOCC лежат две ключевые компоненты: Interaction-enhanced Optimal Transport (IEOT) и Center-aware Contrastive Learning (CACL). IEOT использует семантические взаимодействия между отдельными примерами для генерации псевдо-меток. Эти псевдо-метки используются для создания псевдо-центров, которые приближаются к истинным семантическим центрам. CACL, в свою очередь, адаптирует представления текстов к этим псевдо-центрам, уменьшая разрыв между кластерными и семантическими центрами. Этот двухэтапный подход позволяет построить точные кластеры даже при ограниченном количестве обучающих примеров. ## Результаты Проведенные эксперименты показали, что IOCC эффективно работает на большом количестве задач кластеризации, включая медицинскую и биоинформатическую области. На датасете Biomedical, IOCC показал улучшение до 7.34% в сравнении с предыдущими методами. Это демонстрирует его превосходство в стабильности и точности кластеризации. IOCC также значительно сокращает время обучения, что делает его применимым для решения реальных задач. ## Значимость Результаты IOCC предлагаются в области кластеризации текстов, в том числе для задач краткого текста и медицинских текстов. Значительное улучшение производительности и стабильности делают IOCC привлекательным для сложных таких задач. Метод также может быть применен в других областях, где требуется адекватная кластеризация с ограниченным количеством данных. ## Выводы Результаты IOCC показали, что его дизайн позволяет значительно улучшить кластеризацию краткого текста. Основные достижения включают улучшение точности, стабильности и эффективности. Дальнейшие исследования будут сфокусированы на расширении IOCC для работы с большим количеством данных и интеграции с другими моделями машинного обучения.

Abstract

In clustering tasks, it is essential to structure the feature space into clear, well-separated distributions. However, because short text representations have limited expressiveness, conventional methods struggle to identify cluster centers that truly capture each category's underlying semantics, causing the representations to be optimized in suboptimal directions. To address this issue, we propose IOCC, a novel few-shot contrastive learning method that achieves alignment between the cluster centers and the semantic centers. IOCC consists of two key modules: Interaction-enhanced Optimal Transport (IEOT) and Center-aware Contrastive Learning (CACL). Specifically, IEOT incorporates semantic interactions between individual samples into the conventional optimal transport problem, and generate pseudo-labels. Based on these pseudo-labels, we aggregate high-confidence samples to construct pseudo-centers that approximate the semantic centers. Next, CACL optimizes text representations toward their corresponding pseudo-centers. As training progresses, the collaboration between the two modules gradually reduces the gap between cluster centers and semantic centers. Therefore, the model will learn a high-quality distribution, improving clustering performance. Extensive experiments on eight benchmark datasets show that IOCC outperforms previous methods, achieving up to 7.34\% improvement on challenging Biomedical dataset and also excelling in clustering stability and efficiency. The code is available at: https://anonymous.4open.science/r/IOCC-C438.

Ссылки и действия