Training LLMs to be Better Text Embedders through Bidirectional Reconstruction

2509.03020v2 cs.CL, cs.IR 2025-09-05
Авторы:

Chang Su, Dengliang Shi, Siyuan Huang, Jintao Du, Changhua Meng, Yu Cheng, Weiqiang Wang, Zhouhan Lin

Резюме на русском

#### Контекст Крупномасштабные языковые модели (LLM) набирают все большую популярность как эффективные текстовые внедряющие модели. Однако существующие подходы, основанные на эмбеддингах последнего токена (например, [EOS]), ограничивают потенциал моделей в задачах поиска и ре-ранкинга. Эти токены не предназначены для полноценного отражения контекста, что приводит к недостатку точности и релевантности в результатах внедрения. Наша мотивация заключается в улучшении этих моделей, обеспечивая более полное и точное представление контекста в тексте. #### Метод Мы предлагаем добавить дополнительный этап обучения, названный **Bidirectional Reconstruction**, прежде чем применять контрастное обучение. Этот этап включает два бинарных генеритивных задания: **Embedding-Based Query-to-Document (EBQ2D)** и **Embedding-Based Document-to-Query (EBD2Q)**. Они дополняют друг друга, акцентируя внимание на том, чтобы токен [EOS] эффективно анкорировал контекст. Модель задается взаимосвязью между [EOS], вопросами и ответами, чтобы обеспечить более точное эмбеддирование. #### Результаты Мы проверили наш подход на **Massive Text Embedding Benchmark (MTEB)**, используя различные модели LLM разного размера. Результаты показали, что добавление билатерального реконструктивного обучения существенно улучшает показатели на всем спектре задач текстового внедрения. Модели с нашим подходом показали значительное превосходство по метрикам ретриева и ре-ранкинга в сравнении с базовыми моделями и другими подходами. #### Значимость Наш подход открывает новые возможности для улучшения LLM в области текстового внедрения, сделав эти модели более точными и релевантными для задач поиска и рекомендации. Он может применяться в различных сферах, включая веб-поиск, личные помощники и анализ текстовых данных. Улучшение эмбеддингов приводит к повышению точности решения задач, снижению необходимости в дополнительных моделях и увеличению эффективности вычислений. #### Выводы Мы установили, что добавление билатеральной реконструкции в процесс обучения LLM значительно повышает их качество в качестве текстовых внедряющих моделей. Будущие исследования будут направлены на исследование других методов улучшения контекстного представления и расширение применений этого подхода в новых сферах.

Abstract

Large language models (LLMs) have increasingly been explored as powerful text embedders. Existing LLM-based text embedding approaches often leverage the embedding of the final token, typically a reserved special token such as [EOS]. However, these tokens have not been intentionally trained to capture the semantics of the whole context, limiting their capacity as text embeddings, especially for retrieval and re-ranking tasks. We propose to add a new training stage before contrastive learning to enrich the semantics of the final token embedding. This stage employs bidirectional generative reconstruction tasks, namely EBQ2D (Embedding-Based Query-to-Document) and EBD2Q (Embedding-Based Document-to-Query), which interleave to anchor the [EOS] embedding and reconstruct either side of Query-Document pairs. Experimental results demonstrate that our additional training stage significantly improves LLM performance on the Massive Text Embedding Benchmark (MTEB), achieving new state-of-the-art results across different LLM base models and scales.

Ссылки и действия