Training LLMs to be Better Text Embedders through Bidirectional Reconstruction
2509.03020v2
cs.CL, cs.IR
2025-09-05
Авторы:
Chang Su, Dengliang Shi, Siyuan Huang, Jintao Du, Changhua Meng, Yu Cheng, Weiqiang Wang, Zhouhan Lin
Резюме на русском
#### Контекст
Крупномасштабные языковые модели (LLM) набирают все большую популярность как эффективные текстовые внедряющие модели. Однако существующие подходы, основанные на эмбеддингах последнего токена (например, [EOS]), ограничивают потенциал моделей в задачах поиска и ре-ранкинга. Эти токены не предназначены для полноценного отражения контекста, что приводит к недостатку точности и релевантности в результатах внедрения. Наша мотивация заключается в улучшении этих моделей, обеспечивая более полное и точное представление контекста в тексте.
#### Метод
Мы предлагаем добавить дополнительный этап обучения, названный **Bidirectional Reconstruction**, прежде чем применять контрастное обучение. Этот этап включает два бинарных генеритивных задания: **Embedding-Based Query-to-Document (EBQ2D)** и **Embedding-Based Document-to-Query (EBD2Q)**. Они дополняют друг друга, акцентируя внимание на том, чтобы токен [EOS] эффективно анкорировал контекст. Модель задается взаимосвязью между [EOS], вопросами и ответами, чтобы обеспечить более точное эмбеддирование.
#### Результаты
Мы проверили наш подход на **Massive Text Embedding Benchmark (MTEB)**, используя различные модели LLM разного размера. Результаты показали, что добавление билатерального реконструктивного обучения существенно улучшает показатели на всем спектре задач текстового внедрения. Модели с нашим подходом показали значительное превосходство по метрикам ретриева и ре-ранкинга в сравнении с базовыми моделями и другими подходами.
#### Значимость
Наш подход открывает новые возможности для улучшения LLM в области текстового внедрения, сделав эти модели более точными и релевантными для задач поиска и рекомендации. Он может применяться в различных сферах, включая веб-поиск, личные помощники и анализ текстовых данных. Улучшение эмбеддингов приводит к повышению точности решения задач, снижению необходимости в дополнительных моделях и увеличению эффективности вычислений.
#### Выводы
Мы установили, что добавление билатеральной реконструкции в процесс обучения LLM значительно повышает их качество в качестве текстовых внедряющих моделей. Будущие исследования будут направлены на исследование других методов улучшения контекстного представления и расширение применений этого подхода в новых сферах.
Abstract
Large language models (LLMs) have increasingly been explored as powerful text
embedders. Existing LLM-based text embedding approaches often leverage the
embedding of the final token, typically a reserved special token such as [EOS].
However, these tokens have not been intentionally trained to capture the
semantics of the whole context, limiting their capacity as text embeddings,
especially for retrieval and re-ranking tasks. We propose to add a new training
stage before contrastive learning to enrich the semantics of the final token
embedding. This stage employs bidirectional generative reconstruction tasks,
namely EBQ2D (Embedding-Based Query-to-Document) and EBD2Q (Embedding-Based
Document-to-Query), which interleave to anchor the [EOS] embedding and
reconstruct either side of Query-Document pairs. Experimental results
demonstrate that our additional training stage significantly improves LLM
performance on the Massive Text Embedding Benchmark (MTEB), achieving new
state-of-the-art results across different LLM base models and scales.
Ссылки и действия
Дополнительные ресурсы: