LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Representations

2509.12539v1 cs.IR, cs.CL, cs.LG 2025-09-18
Авторы:

Robin Vujanic, Thomas Rueckstiess

Резюме на русском

Описание статьи: ## Контекст **LEAF** ("Lightweight Embedding Alignment Framework") — это инновационная методология для тренировки моделей текстовых эмбеддингов. Она стремится улучшить эффективность моделей, создаваемых с помощью значительно более мощных "учительских" моделей. Эта проблема актуальна в сфере обработки естественного языка, где необходимо сбалансировать качество результатов и вычислительные затраты. Основная проблема, которую решает LEAF, заключается в трудности достижения высокой модельной эффективности без потери точности. Традиционные подходы часто требуют значительных ресурсов для обучения и хранения моделей. LEAF предлагает универсальный фреймворк, который может быть применен к различным задачам, таким как информационная поисковая система и многозадачные модели. ## Метод LEAF основывается на **процессе знаний извлечения из моделей** (knowledge distillation). Он учитывает специфику семантического взаимодействия между текстами, предлагая асимметричную архитектуру: "учитель" — большая модель для кодирования документов, "ученик" — меньшая модель для обработки запросов. Основным изобретением является система **teacher-aligned representations**, которая позволяет моделям-ученикам автоматически получать свойства, такие как многозадачность (MRL) и устойчивость к квантованию, без дополнительной тренировки. Также, LEAF требует малого количества данных и ресурсов, что делает его привлекательным для реализации на устройствах с ограниченными мощностями. ## Результаты Результаты тестирования LEAF показали выдающиеся результаты. Модель leaf-ir, размером 23 миллионов параметров, стала новым стандартом точности (SOTA) на бенчмарке **BEIR**, опередив все модели схожего размера. Кроме того, в асимметричном режиме, где документы обрабатываются большой моделью, а запросы — упрощенной моделью, выдача LEAF значительно улучшилась. Другая модель, **leaf-mt**, показала схожий успех, став новым стандартом точности на **MTEB v2 (English)**. Этот результат продемонстрирован на практике, с указанием повышения эффективности и уменьшения ресурсов. ## Значимость LEAF открывает новые возможности в области моделей текстовых эмбеддингов. Он позволяет использовать большие модели для генерации данных, в то же время уменьшая затраты на их развертывание в сервисах. Такие модели могут использоваться в различных задачах, включая информационное поисковое взаимодействие, многозадачные модели, а также для оптимизации работы на устройствах с ограниченными ресурсами. Особенно важно, что LEAF не требует трудоемких стадий обучения с трудными отрицательными примерами, что делает его привлекательным для разработчиков. ## В

Abstract

We present LEAF ("Lightweight Embedding Alignment Framework"), a knowledge distillation framework for text embedding models. A key distinguishing feature is that our distilled leaf models are aligned to their teacher. In the context of information retrieval, this allows for flexible asymmetric architectures where documents are encoded with the larger teacher model, while queries can be served with the smaller leaf models. We also show that leaf models automatically inherit MRL and robustness to output quantization whenever these properties are present in the teacher model, without explicitly training for them. To demonstrate the capability of our framework we publish leaf-ir, a 23M parameters information retrieval oriented text embedding model trained using LEAF, which sets a new state-of-the-art (SOTA) on BEIR, ranking #1 on the public leaderboard for this benchmark and for models of its size. When run in asymmetric mode, its retrieval performance is further increased. Our scheme is however not restricted to the information retrieval setting, and we demonstrate its wider applicability by synthesizing the multi-task leaf-mt model. This also sets a new SOTA, ranking #1 on the public MTEB v2 (English) leaderboard for its size. LEAF is applicable to black-box models and in contrast to other embedding model training frameworks, it does not require judgments nor hard negatives, and training can be conducted using small batch sizes. Thus, dataset and training infrastructure requirements for our framework are modest. We make our models publicly available under a permissive Apache 2.0 license.

Ссылки и действия

Связанные статьи

Beyond Sequential Reranking: Reranker-Guided Search Improves Reasoning Intensive...

## Контекст В современной области отбора информации сталкиваются с рядом ограничений, связанных с использованием последо...

2025-09-11

ELIXIR: Efficient and LIghtweight model for eXplaIning Recommendations

## Контекст Современные системы рекомендаций, основанные на коллаборативном фильтрировании, стали неотъемлемой частью ц...

2025-08-29

On the Theoretical Limitations of Embedding-Based Retrieval

## Контекст В последние годы векторные представления (embeddings) приобрели важное место в системах рекомендаций, восста...

2025-08-29

Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analy...

**Резюме** В статье рассматривается проблема эффективности мультимодальных рекомендательных систем, которые используют р...

2025-08-09