Efficient Code Embeddings from Code Generation Models

2508.21290v1 cs.CL, cs.AI, cs.IR, 68T50, I.2.7 2025-09-02
Авторы:

Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao

Резюме на русском

## Контекст Код считается одной из наиболее важных моделей текущей информационной эпохи. На повседневной основе люди используют код для решения разнообразных задач, а его качественное понимание и восприятие являются ключевыми факторами успеха во многих технологических областях. Однако активный рост количества программных систем породил проблемы с поиском и восприятием кода. Отсутствие эффективных систем поиска кода, сочетающих в себе научные предложения и технические решения, является типичной проблемой. Данная работа описывает `jina-code-embeddings`, модель, предназначенную для решения этих проблем путем эффективного кодирования и поиска кода. ## Метод `jina-code-embeddings` является результатом инновационного подхода, который использует авторегрессионный фреймворк, предварительно обученный на различных языках программирования и текстовых данных. Модель создает векторное представление кода, используя последний токен авторегрессионного слоя. Эта модель предназначена для решения задач поиска кода, восстановления кода по естественному языку и технического вопроса-ответа. Для обучения применяется только нулевой или первый токен в качестве подсказки, что позволяет эффективно использовать ресурсы. ## Результаты На тренировочной выборке, содержащей 1,2 миллиарда пар естественного языка и кода, модель показала свою эффективность. Она достигла state-of-the-art результатов в задачах восстановления кода, технического вопроса-ответа и определения семантической схожести кода. Эксперименты проводились на различных датасетах, таких как CodeSearchNet и Stack Overflow, что подтвердило хорошую общую стойкость модели. Данные результаты демонстрируют высокий показатель презентабельности и эффективности использования модели в реальных сценариях. ## Значимость `jina-code-embeddings` может применяться в различных областях технических и неконтентных задач. Она может помочь в поиске и восстановлении кода, вопросах-ответах в технических областях, а также в анализе и сравнении кода для достижения лучшего базового понимания. Особенно важным является её моментальное влияние на область AI-powered coding, подтверждая достижения модели в конкурентных результатах. ## Выводы `jina-code-embeddings` достигла статуса лидера в семантическом поиске кода и восстановлении кода по естественному языку. Она продемонстрировала свою эффективность на многих датасетах и в разных задачах. Основным направлением будущих исследований является улучшение модели для повышения её точности и уменьшения потребления ресурсов во время обучения и применения.

Abstract

jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validating this approach to code embedding model construction.

Ссылки и действия

Связанные статьи

jina-reranker-v3: Last but Not Late Interaction for Document Reranking

#### Контекст Исследование сосредоточено на развитии модели reranker-v3 для релевантного рейтинга документов в многоязыч...

2025-10-01