📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 jina-reranker-v3: Last but Not Late Interaction for Document Reranking

2025-10-02

Авторы:

Feng Wang, Yuqing Li, Han Xiao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

jina-reranker-v3 is a 0.6B parameter multilingual document reranker that introduces a novel last but not late interaction. Unlike late interaction models such as ColBERT that perform separate encoding followed by multi-vector matching, our approach conducts causal self-attention between query and documents within the same context window, enabling rich cross-document interactions before extracting contextual embeddings from the last token of each document. This compact architecture achieves state...

ID: 2509.25085v2 cs.CL, cs.AI, cs.IR, 68T50, I.2.7

arXiv PDF

📄 jina-reranker-v3: Last but Not Late Interaction for Document Reranking

2025-10-01

Авторы:

Feng Wang, Yuqing Li, Han Xiao

#### Контекст Исследование сосредоточено на развитии модели reranker-v3 для релевантного рейтинга документов в многоязычной среде. Существующие модели, такие как ColBERT, используют последовательные операции: предварительное кодирование документов и затем вычисление взаимодействий с помощью многовекторного поиска. Однако такой подход может быть неэффективен в ситуациях, когда необходимо учитывать взаимодействия между документами в реальном времени. Наша модель jina-reranker-v3 предлагает более эффективное графическое решение, используя самовыделяющееся внимание внутри контекстной группы документов, что позволяет проводить раннюю интерактивную обработку документов и объединять их контексты до получения контекстных векторов. #### Метод Модель jina-reranker-v3 основывается на самовыделяющемся внимании с трансформерами, которое работает в ограниченной контекстной группе документов. Основная идея заключается в том, чтобы взаимодействовать с каждым документом внутри этой группы, используя казуальное само-внимание, которое позволяет оценивать взаимосвязи между документами в течение одного прохода. Этот подход позволяет объединять контексты документов раньше, чем это делают многие другие модели. Затем для каждого документа извлекается контекстное представление из последнего токена. Эта модель имеет небольшой размер, но показывает высокую эффективность в задаче рейтинга документов. #### Результаты Мы провели эксперименты с популярным набором данных BEIR, чтобы оценить эффективность модели. jina-reranker-v3 показала state-of-the-art результаты с nDCG@10 = 61.94. Это продемонстрировано на основе многоязычных запросов, где наша модель существенно превосходит существующие модели. Кроме того, мы сравнили размер модели и увидели, что jina-reranker-v3 гораздо меньше, чем другие generative listwise rerankers, но при этом показывает почти такие же результаты. Это преимущество обусловлено своей компактной архитектурой. #### Значимость Модель jina-reranker-v3 может использоваться в различных областях, где необходимо выполнять быстрое и точное рейтинговое внимание к документам. Например, в поисковых системах, рекомендательных системах, или в любой ситуации, где релевантность документов к запросу критическа. Одно из основных преимуществ этой модели — это ее высокая эффективность и компактность, что делает ее привлекательной для распределенных систем и для использования на устройствах с ограниченными ресурсами. #### Выводы Модель jina-reranker-v3 достигла новых рекордов в рейтинговом внимании между документами, показав высокую эффективность и компактность. Такой подход может стать полезны

Annotation:

ID: 2509.25085v1 cs.CL, cs.AI, cs.IR, 68T50, I.2.7

arXiv PDF

📄 Efficient Code Embeddings from Code Generation Models

2025-09-02

Авторы:

Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao

## Контекст Код считается одной из наиболее важных моделей текущей информационной эпохи. На повседневной основе люди используют код для решения разнообразных задач, а его качественное понимание и восприятие являются ключевыми факторами успеха во многих технологических областях. Однако активный рост количества программных систем породил проблемы с поиском и восприятием кода. Отсутствие эффективных систем поиска кода, сочетающих в себе научные предложения и технические решения, является типичной проблемой. Данная работа описывает `jina-code-embeddings`, модель, предназначенную для решения этих проблем путем эффективного кодирования и поиска кода. ## Метод `jina-code-embeddings` является результатом инновационного подхода, который использует авторегрессионный фреймворк, предварительно обученный на различных языках программирования и текстовых данных. Модель создает векторное представление кода, используя последний токен авторегрессионного слоя. Эта модель предназначена для решения задач поиска кода, восстановления кода по естественному языку и технического вопроса-ответа. Для обучения применяется только нулевой или первый токен в качестве подсказки, что позволяет эффективно использовать ресурсы. ## Результаты На тренировочной выборке, содержащей 1,2 миллиарда пар естественного языка и кода, модель показала свою эффективность. Она достигла state-of-the-art результатов в задачах восстановления кода, технического вопроса-ответа и определения семантической схожести кода. Эксперименты проводились на различных датасетах, таких как CodeSearchNet и Stack Overflow, что подтвердило хорошую общую стойкость модели. Данные результаты демонстрируют высокий показатель презентабельности и эффективности использования модели в реальных сценариях. ## Значимость `jina-code-embeddings` может применяться в различных областях технических и неконтентных задач. Она может помочь в поиске и восстановлении кода, вопросах-ответах в технических областях, а также в анализе и сравнении кода для достижения лучшего базового понимания. Особенно важным является её моментальное влияние на область AI-powered coding, подтверждая достижения модели в конкурентных результатах. ## Выводы `jina-code-embeddings` достигла статуса лидера в семантическом поиске кода и восстановлении кода по естественному языку. Она продемонстрировала свою эффективность на многих датасетах и в разных задачах. Основным направлением будущих исследований является улучшение модели для повышения её точности и уменьшения потребления ресурсов во время обучения и применения.

Annotation:

jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validati...

ID: 2508.21290v1 cs.CL, cs.AI, cs.IR, 68T50, I.2.7

arXiv PDF