Efficient Code Embeddings from Code Generation Models
2508.21290v1
cs.CL, cs.AI, cs.IR, 68T50, I.2.7
2025-09-02
Авторы:
Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
Резюме на русском
## Контекст
Код считается одной из наиболее важных моделей текущей информационной эпохи. На повседневной основе люди используют код для решения разнообразных задач, а его качественное понимание и восприятие являются ключевыми факторами успеха во многих технологических областях. Однако активный рост количества программных систем породил проблемы с поиском и восприятием кода. Отсутствие эффективных систем поиска кода, сочетающих в себе научные предложения и технические решения, является типичной проблемой. Данная работа описывает `jina-code-embeddings`, модель, предназначенную для решения этих проблем путем эффективного кодирования и поиска кода.
## Метод
`jina-code-embeddings` является результатом инновационного подхода, который использует авторегрессионный фреймворк, предварительно обученный на различных языках программирования и текстовых данных. Модель создает векторное представление кода, используя последний токен авторегрессионного слоя. Эта модель предназначена для решения задач поиска кода, восстановления кода по естественному языку и технического вопроса-ответа. Для обучения применяется только нулевой или первый токен в качестве подсказки, что позволяет эффективно использовать ресурсы.
## Результаты
На тренировочной выборке, содержащей 1,2 миллиарда пар естественного языка и кода, модель показала свою эффективность. Она достигла state-of-the-art результатов в задачах восстановления кода, технического вопроса-ответа и определения семантической схожести кода. Эксперименты проводились на различных датасетах, таких как CodeSearchNet и Stack Overflow, что подтвердило хорошую общую стойкость модели. Данные результаты демонстрируют высокий показатель презентабельности и эффективности использования модели в реальных сценариях.
## Значимость
`jina-code-embeddings` может применяться в различных областях технических и неконтентных задач. Она может помочь в поиске и восстановлении кода, вопросах-ответах в технических областях, а также в анализе и сравнении кода для достижения лучшего базового понимания. Особенно важным является её моментальное влияние на область AI-powered coding, подтверждая достижения модели в конкурентных результатах.
## Выводы
`jina-code-embeddings` достигла статуса лидера в семантическом поиске кода и восстановлении кода по естественному языку. Она продемонстрировала свою эффективность на многих датасетах и в разных задачах. Основным направлением будущих исследований является улучшение модели для повышения её точности и уменьшения потребления ресурсов во время обучения и применения.
Abstract
jina-code-embeddings is a novel code embedding model suite designed to
retrieve code from natural language queries, perform technical
question-answering, and identify semantically similar code snippets across
programming languages. It makes innovative use of an autoregressive backbone
pre-trained on both text and code, generating embeddings via last-token
pooling. We outline the training recipe and demonstrate state-of-the-art
performance despite the relatively small size of the models, validating this
approach to code embedding model construction.