Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement
2509.24291v1
cs.CL, cs.AI, I.2.7; I.2.6
2025-10-01
Авторы:
Yu-Che Tsai, Kuan-Yu Chen, Yuan-Chi Li, Yuan-Hao Chen, Ching-Yu Tsai, Shou-De Lin
Резюме на русском
## Контекст
В последние годы становится все более очевидным, что классические подходы к представлению текстовых данных, основанные на кодировании (encoding), недостаточно эффективны для передачи семантических отсутствует текстовые научного стиля. Эти методы ограничиваются статичным извлечением признаков и часто пропускают богатые семантические связи в тексте. Это приводит к ограниченной точности и слабому пониманию контекста.
Большинство текущих подходов, основанные на использовании больших языковых моделей (LLM), стремятся улучшить представление текстов, однако полагаются только на кодирование входных данных. Эти методы либо игнорируют, либо недостаточно эффективно используют генеративные силы LLMs, которые могут быть использованы для более точного понимания и представления текста.
В этой статье предлагается новый подход, который использует генеративные свойства LLMs для более точного и семантически богатого представления текстов. Этот подход не только улучшает характеристики текстовых представлений, но и использует технологии итеративного рефинейма, чтобы добиться более высокого качества и глубины представления.
## Метод
Предлагаемый подход, **GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings)**, представляет собой инновационный подход к генерации представлений текстов. В отличие от традиционных подходов, GIRCSE не ограничивается только выводом признаков, но и реализует итеративный процесс, в котором генеративная модель стремится к постоянному улучшению представлений текстов.
Главная идея заключается в том, чтобы использовать самостоятельно генерируемые последовательности токенов, которые будут использованы для рефинейма (оптимизации) семантических описаний. Этот процесс осуществляется в цикле, где каждый шаг улучшает качество представления, используя процедуру **contrastive refinement**. Это означает, что каждый новый шаг генерации позволяет модели учитывать более широкий контекст и повышать точность представления.
**Главные технические решения:**
1. **Iterative Contrastive Refinement (ICR) Objective**: Этот метод состоит в том, что каждый шаг генерации стремится минимизировать расстояние между представлением текста и его контекстной целью в пространстве семантики.
2. **Autoregressive Generation**: Используется для того, чтобы модель могла последовательно генерировать новые токены, чтобы улучшить представление, минимизируя потери в пространстве вариантов.
3. **Soft Token Optimization**: Генерируемые токены не являются фиксированными, а являются "мягкими", что позволяет модели более тонко управлять потоком информации и улучшать представление.
В этом подходе используется **Модель Большо
Abstract
Existing large language model (LLM)-based embeddings typically adopt an
encoder-only paradigm, treating LLMs as static feature extractors and
overlooking their core generative strengths. We introduce GIRCSE (Generative
Iterative Refinement for Contrastive Sentence Embeddings), a novel framework
that leverages autoregressive generation to iteratively refine semantic
representations. By producing sequences of soft tokens optimized under
contrastive objective, GIRCSE captures latent concepts and implicit semantics
that encoder-only methods often miss. To guide this process, we propose an
Iterative Contrastive Refinement (ICR) objective that encourages each
refinement step to yield better representations. Extensive experiments show
that GIRCSE outperforms strong LLM-based embedding baselines on the MTEB
benchmark and instruction-following tasks. Moreover, GIRCSE exhibits an
emergent test-time scaling property: generating more tokens at inference
steadily improves embedding quality. Our results establish generative iterative
refinement as a new paradigm for representation learning.