📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jixuan Yin, Zhihao Yao, Wenshuai Huo, Xinmiao Yu, Xiaocheng Feng, Bo Li

## Контекст Одной из основных задач машинного обучения является кластеризация данных, которая предназначена для группировки элементов похожих объектов. В кластеризации краткого текста встречаются свои трудности, так как отсутствие длинных синтаксических конструкций и богатого контекста затрудняет построение точных представлений. Традиционные методы часто сталкиваются с проблемой неточного определения кластерных центров, что приводит к нестабильным и менее точным результатам кластеризации. В статье предлагается IOCC, новая методика для решения проблемы кластеризации краткого текста, которая стремится улучшить точность и стабильность кластеризации. ## Метод Основой IOCC лежат две ключевые компоненты: Interaction-enhanced Optimal Transport (IEOT) и Center-aware Contrastive Learning (CACL). IEOT использует семантические взаимодействия между отдельными примерами для генерации псевдо-меток. Эти псевдо-метки используются для создания псевдо-центров, которые приближаются к истинным семантическим центрам. CACL, в свою очередь, адаптирует представления текстов к этим псевдо-центрам, уменьшая разрыв между кластерными и семантическими центрами. Этот двухэтапный подход позволяет построить точные кластеры даже при ограниченном количестве обучающих примеров. ## Результаты Проведенные эксперименты показали, что IOCC эффективно работает на большом количестве задач кластеризации, включая медицинскую и биоинформатическую области. На датасете Biomedical, IOCC показал улучшение до 7.34% в сравнении с предыдущими методами. Это демонстрирует его превосходство в стабильности и точности кластеризации. IOCC также значительно сокращает время обучения, что делает его применимым для решения реальных задач. ## Значимость Результаты IOCC предлагаются в области кластеризации текстов, в том числе для задач краткого текста и медицинских текстов. Значительное улучшение производительности и стабильности делают IOCC привлекательным для сложных таких задач. Метод также может быть применен в других областях, где требуется адекватная кластеризация с ограниченным количеством данных. ## Выводы Результаты IOCC показали, что его дизайн позволяет значительно улучшить кластеризацию краткого текста. Основные достижения включают улучшение точности, стабильности и эффективности. Дальнейшие исследования будут сфокусированы на расширении IOCC для работы с большим количеством данных и интеграции с другими моделями машинного обучения.
Annotation:
In clustering tasks, it is essential to structure the feature space into clear, well-separated distributions. However, because short text representations have limited expressiveness, conventional methods struggle to identify cluster centers that truly capture each category's underlying semantics, causing the representations to be optimized in suboptimal directions. To address this issue, we propose IOCC, a novel few-shot contrastive learning method that achieves alignment between the cluster cen...
ID: 2508.06126v1 stat.ME, cs.LG, stat.ML
Показано 11 - 11 из 11 записей