MISS: Multi-Modal Tree Indexing and Searching with Lifelong Sequential Behavior for Retrieval Recommendation

2508.14515v1 cs.IR, cs.AI 2025-08-22
Авторы:

Chengcheng Guo, Junda She, Kuo Cai, Shiyao Wang, Qigen Hu, Qiang Luo, Kun Gai, Guorui Zhou

Резюме на русском

## Контекст Mordern industrial recommendation systems обычно используют два этапа: retrieval (поиск) и ranking (оценка). Во время поиска требуется обработка огромного объема данных, чтобы найти подходящие элементы пользователю. Одним из ключевых моментов является улучшение процесса поиска, который может быть достигнут с помощью интеграции различных видов сведений об объектах (items), включая такие как текстовые описания, изображения и другие модальности. Однако, существуют проблемы в этой области. В то же время, существующие методы трудно используют раннее поведение пользователя (lifelong sequence behavior) на этапе поиска, частично из-за того, что эти поведений трудно внедрить в существующие структуры данных. Кроме того, многие существующие модели поиска ориентированы только на взаимодействие между пользователем и объектом, не учитывая возможности использования многомодальных данных, которые могут повысить точность и эффективность рекомендательных систем. ## Метод Мы предлагаем MISS (Multi-Modal Indexing and Searching with Lifelong Sequence) — первый подход, который интегрирует многомодальность и lifelong sequence modeling в рамках мощной tree-based retrieval architecture. Наша архитектура состоит из двух основных компонентов: 1. **Multi-Modal Index Tree (Многомодальный индексный дерево)**: Дерево создается на основе многомодальных embedding (представлений) элементов, что позволяет эффективно представить их схожесть. Это дерево обеспечивает быстрый и точный поиск пользовательских запросов. 2. **Multi-Modal Lifelong Sequence Modeling (Многомодальная модель lifelong sequence)**: Для того, чтобы лучше понять разные интересы пользователей в ходе временной последовательности взаимодействий (lifelong behavior), мы предлагаем Collaborative General Search Unit (Co-GSU) и Multi-Modal General Search Unit (MM-GSU). Эти модели позволяют эффективно искать пользовательские интересы в разных аспектах, без затруднений, связанных с большим количеством данных. ## Результаты Мы проводим эксперименты с использованием реальных данных, чтобы проверить эффективность нашей модели. Наши эксперименты показали, что MISS на сравнительно большом датасете показывает значительное улучшение в точности и эффективности по сравнению с текущими методами. Кроме того, мы проводим анализ, в котором показываем, что использование многомодальности и lifelong sequence modeling позволяет значительно повысить качество рекомендаций. ## Значимость Наша модель может применяться в различных сферах, таких как рекомендация товаров, содержимого, и даже в здравоохранении. Основное преимущество MISS заключается в том, что она может эффективно использовать различные виды сведений, в том числе многомодальные данные и поведение пользователя в течение времени. Это повышает качество рекомендаций, улучшает пользовательский опыт и может привести к значительным повышениям в производительности систем рекомендаций в бо

Abstract

Large-scale industrial recommendation systems typically employ a two-stage paradigm of retrieval and ranking to handle huge amounts of information. Recent research focuses on improving the performance of retrieval model. A promising way is to introduce extensive information about users and items. On one hand, lifelong sequential behavior is valuable. Existing lifelong behavior modeling methods in ranking stage focus on the interaction of lifelong behavior and candidate items from retrieval stage. In retrieval stage, it is difficult to utilize lifelong behavior because of a large corpus of candidate items. On the other hand, existing retrieval methods mostly relay on interaction information, potentially disregarding valuable multi-modal information. To solve these problems, we represent the pioneering exploration of leveraging multi-modal information and lifelong sequence model within the advanced tree-based retrieval model. We propose Multi-modal Indexing and Searching with lifelong Sequence (MISS), which contains a multi-modal index tree and a multi-modal lifelong sequence modeling module. Specifically, for better index structure, we propose multi-modal index tree, which is built using the multi-modal embedding to precisely represent item similarity. To precisely capture diverse user interests in user lifelong sequence, we propose collaborative general search unit (Co-GSU) and multi-modal general search unit (MM-GSU) for multi-perspective interests searching.

Ссылки и действия