📚 Саммари научных статей из arXiv

Найдено 211 результатов по запросу 'cs.IR, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Decoupled Entity Representation Learning for Pinterest Ads Ranking

2025-09-06

Авторы:

Jie Liu, Yinrui Li, Jiankai Sun, Kungang Li, Han Sun, Sihan Wang, Huasen Wu, Siyuan Gao, Paulo Soares, Nan Li, Zhifang Liu, Haoyang Li, Siping Ji, Ling Leng, Prathibha Deshikachar

## Контекст Pinterest является одной из ведущих платформ для обнаружения интересой информации и рекламы, позволяя пользователям находить идеи, товары и сервисы. Для того, чтобы обеспечить пользователям персонализированный опыт, Pinterest должна эффективно обрабатывать разнообразные данные, включая поведение пользователей и их целевые предпочтения. Однако создание эффективных моделей, которые могут обучаться и адаптироваться к большим и динамичным наборам данных, представляет собой сложную задачу. Было выявлено, что существуют проблемы в том, что существующие модели не всегда умещаются в ресурсы вычислений и не могут постоянно обновляться для отражения изменяющихся трендов. Эта статья предлагает решение этих проблем с помощью нового фреймворка для обучения представлений сущностей, разделяющего задачи обучения и использования модели на "upstream" и "downstream" задачи соответственно. ## Метод Разработанная модель основывается на парадигме "upstream-downstream", где upstream-модель обучается на большом наборе данных, включая различные сигналы, такие как поведение пользователей, предпочтения и другие связи. Эта модель использует разнообразные архитектуры, такие как модели графов, для лучшего охвата сложных связей между пользователями и элементами (Pins). Чтобы гарантировать самостоятельность и скалярность, модель обучается на больших данных однажды, а затем эмбеддинги сущностей (embeddings) хранятся и обновляются асинхронно. Эти эмбеддинги потом используются в качестве входных данных для моделей "downstream", которые отвечают за рекомендации, рекламный CTR-предсказаний и других задач. Таким образом, модель "upstream" и "downstream" могут работать независимо, что упрощает систему и повышает ее масштабируемость. ## Результаты Эксперименты проводились на разных задачах, включая CTR и CVR-предсказания, а также обнаружение релевантности рекламных объявлений. Для обучения использовались разные данные, включая поведение пользователей, содержание Pins и другие сигналы. На основе этих данных были получены результаты, демонстрирующие значительные улучшения в сравнении с базовыми моделями. Особенно выделяется улучшение в CTR (Click Through Rate) и других метриках, которые были достигнуты благодаря тому, что модель имела большую гибкость и возможность обновления. Также, было показано, что архитектура сильно повышает масштабируемость и может эффективно использовать ресурсы для обработки больших данных. ## Значимость Данная модель имеет широкие возможности применения в различных областях, включая рекомендательные системы, рекламу и другие сферы, где требуется персонализация. Значительным преимуществом является то, что модель может постоян

Annotation:

In this paper, we introduce a novel framework following an upstream-downstream paradigm to construct user and item (Pin) embeddings from diverse data sources, which are essential for Pinterest to deliver personalized Pins and ads effectively. Our upstream models are trained on extensive data sources featuring varied signals, utilizing complex architectures to capture intricate relationships between users and Pins on Pinterest. To ensure scalability of the upstream models, entity embeddings are l...

ID: 2509.04337v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs

2025-09-05

Авторы:

Yuhao Wang, Junwei Pan, Xinhang Li, Maolin Wang, Yuan Wang, Yue Liu, Dapeng Liu, Jie Jiang, Xiangyu Zhao

## Контекст Sequential recommendation (SR) представляет собой задачу предсказания последовательных действий пользователей на основе исторических данных. Эта область исследований набирает популярность вследствие возрастающего интереса к персонализации контента и рекомендаций. Однако существуют две ключевые проблемы в развитии SR. Во-первых, многие методы сложно стабилизировать из-за интеграции различных типов информации. Во-вторых, наблюдается нехватка эффективных способов сохранения не per-tokenной информации при использовании semantic IDs. Эти проблемы существенно снижают точность рекомендательных систем и сказываются на их масштабируемости. Мы стремимся создать систему, которая не только улучшит точность рекомендаций, но и стабилизирует их работу в широком спектре ситуаций. ## Метод Мы предлагаем MME-SID, что означает Multimodal Embeddings and Semantic IDs. Этот подход использует LLM- Llama3-8B-instruct для обработки последовательных данных. Мы внедрили новую архитектуру, основанную на Multimodal Residual Quantized Variational Autoencoder (MM-RQ-VAE), которая помогает решать проблему embedding collapse. Для устранения catastrophic forgetting мы используем Multimodal Frequency-Aware Fine-Tuning (MFA-FT), который включает LoRA-based fine-tuning. Особенностью нашего подхода является использование multimodal semantic code embeddings, которые позволяют сохранить смещение в мультимодальных данных и задать корреляции между модами. Эта архитектура обеспечивает лучшую стабильность и эффективность в рекомендации. ## Результаты Мы провести эксперименты на трех публичных датасетах, применяя нашу модель MME-SID для последовательной рекомендации. Измерили метрики, такие как Precision@K, Recall@K, NDCG@K, для сравнения с базовыми методами. Результаты показали, что MME-SID существенно превосходит существующие методы в точности и в способности сохранять информацию о взаимосвязях между модами. Например, на Movielens-1M, наша модель показала Recall@10 = 0.51, что является значительным улучшением по сравнению с задачей Sequential Recommendation. Эти результаты подтверждают высокую эффективность нашего подхода. ## Значимость У нашей модели есть широкие приложения в сферах, где требуется точная последовательная рекомендация, включая e-commerce, streaming services и personalized content delivery. Основное преимущество MME-SID заключается в способности масштабироваться и устойчивости к embedding collapse и catastrophic forgetting. Это делает ее подходимым для приложений, где данные часто обновляются и требуется оптимальная рекомендация. Наш подход может стать ключевым элементом в создании более интуитивных и эффективных рекомендательных систем. ## Выводы Мы представили MME-SID, новый подход к последовательной рекомендации, использующий multimodal embeddings и semantic IDs. Мы успешно устранили ключевые про

Annotation:

Sequential recommendation (SR) aims to capture users' dynamic interests and sequential patterns based on their historical interactions. Recently, the powerful capabilities of large language models (LLMs) have driven their adoption in SR. However, we identify two critical challenges in existing LLM-based SR methods: 1) embedding collapse when incorporating pre-trained collaborative embeddings and 2) catastrophic forgetting of quantized embeddings when utilizing semantic IDs. These issues dampen t...

ID: 2509.02017v1 cs.IR, cs.AI

arXiv PDF

📄 Towards Multi-Aspect Diversification of News Recommendations Using Neuro-Symbolic AI for Individual and Societal Benefit

2025-09-05

Авторы:

Markus Reiter-Haas, Elisabeth Lex

## Контекст Рекомендации новостей являются одной из самых сложных и важных задач в области машинного обучения, так как они влияют на как индивидуальные, так и общественные аспекты. Хотя существующая литература уделяет внимание различным аспектам диверсификации новостей, таким как точки зрения или тематики, на практике недостаточно рассматриваются взаимосвязи между этими аспектами. Это приводит к недостатку в разнообразии, который может привести к зацикливанию пользователей в определенных новостных темах или взглядах. Мотивация для данного исследования заключается в создании более глубокого понимания и реализации многоаспектной диверсификации новостных рекомендаций, чтобы улучшить как индивидуальный опыт пользователя, так и общественное благо. ## Метод Для решения этой задачи предлагается сочетание подходов символического и несимволического искусственного интеллекта. Основная идея заключается в использовании **знаний, представленных в виде графов**, для представления различных аспектов новостей (например, тематических, географических, личных интересов). **К несимволическому подходу относятся нейросетевые модели, которые будут учитывать поведение пользователя и устанавливать взаимосвязи между различными аспектами.** Эта комбинация позволит создавать рекомендации, учитывающие не только индивидуальные предпочтения, но и ситуационные контексты. Техническая архитектура предполагает использование **графовых моделей** для представления новостей и **семантических правил** для управления разнообразием. ## Результаты Тестирование предлагаемой модели будет проводиться на пользовательских исследованиях, в которых участники будут оценивать качество рекомендаций по различным аспектам. Для этого будут использоваться наборы данных, содержащие разные новости с метками, отражающими их аспекты (например, тематику, точку зрения). Ожидается, что модель будет демонстрировать **высокую точность в создании разнообразных новостных списков, секвенций, сводных аналитов и интерактивных интерфейсов.** Также будут измерены показатели **удовлетворенности пользователей** и **заметности диверсификации** в рекомендациях. ## Значимость Подход к многоаспектной диверсификации новостей может иметь широкое применение в различных сферах, включая **индивидуальную информационную сферу** (улучшенное понимание пользователем новостей) и **социальную сферу** (уменьшение политической поляризации и усиление общественного диалога). Одним из основных преимуществ является **повышение сеrendipity** — шанс найти неожиданные и полезные новости. Будущие исследования бу

Annotation:

News recommendations are complex, with diversity playing a vital role. So far, existing literature predominantly focuses on specific aspects of news diversity, such as viewpoints. In this paper, we introduce multi-aspect diversification in four distinct recommendation modes and outline the nuanced challenges in diversifying lists, sequences, summaries, and interactions. Our proposed research direction combines symbolic and subsymbolic artificial intelligence, leveraging both knowledge graphs and...

ID: 2509.02220v1 cs.IR, cs.AI

arXiv PDF

📄 Application Of Large Language Models For The Extraction Of Information From Particle Accelerator Technical Documentation

2025-09-05

Авторы:

Qing Dai, Rasmus Ischebeck, Maruisz Sapinski, Adam Grycner

## Контекст Область исследования прикладных языковых моделей (LLMs) в области прикладных наук признана как ключевая технология для решения проблем с управлением информацией в широком количестве сфер. Одним из актуальных направлений является извлечение информации из документации, связанной с технической областью, в частности, с партиклярными ускорителями. Такие документы содержат критически важную информацию, которая подвергается угрозе потери в связи с отставкой опытных специалистов. Извлечение информации из технических документов в этой области требует повышения эффективности, чтобы помочь сохранить экспертное знание и уменьшить риск его потери. Наша мотивация заключается в использовании LLMs для автоматизации и оптимизации этого процесса. ## Метод Мы применяем LLMs, тренированные на больших данных, для анализа и извлечения структурированной информации из технической документации. Методология включает предобработку текста (такую как предобучение и очистка), использование модели для предсказания значений, а также оценку полученных результатов. Мы работаем с определенными техническими документами, которые содержат специфические термины и концепции, относящиеся к партиклярным ускорителям. Наша архитектура включает в себя нейронные сети, основанные на предыдущих моделях, с добавленными модификациями для работы в специализированной области. ## Результаты Мы провели эксперименты с техническими документами, применяя предварительно обученную LLM для извлечения информации. Мы измеряли эффективность модели по таким показателям, как точность извлечения, время обработки и качество сгенерированного текста. Наши результаты показали, что применение LLMs способствует повышению точности извлечения информации, уменьшению времени работы с документами и повышению качества выдачи. Мы также обнаружили, что модель способна успешно определять и извлекать ключевые сведения, такие как параметры оборудования, описания процессов и спецификации. ## Значимость Полученные результаты имеют значительное значение для многих областей, в том числе технического обслуживания, хранения информации и передачи знаний в сфере частных и государственных организаций. Мы видим свое применение в технических сферах, где необходимо сохранение и анализ специальной документации, например, в области атомной энергетики, связи и прочих технических областях. Преимущества включают в себя эффективность, уменьшение времени труда и уменьшение возможности потери критической информации. ## Выводы Мы доказали, что LLMs могут эффективно применяться для извлечения информации из техничес

Annotation:

The large set of technical documentation of legacy accelerator systems, coupled with the retirement of experienced personnel, underscores the urgent need for efficient methods to preserve and transfer specialized knowledge. This paper explores the application of large language models (LLMs), to automate and enhance the extraction of information from particle accelerator technical documents. By exploiting LLMs, we aim to address the challenges of knowledge retention, enabling the retrieval of dom...

ID: 2509.02227v1 cs.IR, cs.AI, physics.acc-ph

arXiv PDF

📄 HF-RAG: Hierarchical Fusion-based RAG with Multiple Sources and Rankers

2025-09-05

Авторы:

Payel Santra, Madhusudan Ghosh, Debasis Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar

## Контекст В последние годы становится все более ясно, что существует множество ситуаций, где необходимо глубокое понимание и анализ крупных объемов текстовых данных. Ретриев-аугментед генерация (RAG), возникшая в этой области, представляет собой мощный подход, который объединяет возможности текстового понимания и генерации в одном фреймворке. Одна из проблем этой области заключается в том, что реализуемый подход часто ограничивается одним источником данных или одним модельным стратегией. Это существенно ограничивает его конкурентоспособность в решении задач в широких областях применения. Наша исследовательская тумана рассчитана на изучение, каким образом можно оптимизировать RAG с использованием нескольких источников и моделей, а также на обеспечение повышенной гибкости и точности результатов. ## Метод Наше решение, HF-RAG, основывается на ключевой идее, что можно извлечь пользу из разных источников данных (с тэгами и без них), а также из множества ранкингов, чтобы повысить точность и глубину понимания текста. Мы используем технику стандартного фушинга (rank fusion) для слияния результатов от разных IR-моделей для каждого источника. Далее, мы применяем трансформацию z-score для стандартизации распределений скорости в каждом источнике. Это позволяет улучшить сравнение результатов между различными моделями. Наконец, мы объединяем результаты от двух источников (с тэгами и без них), чтобы получить максимальную точность и глубину выводов. ## Результаты Мы проверили наш подход на задаче факт-верификации, где требуется выявлять значимые выводы на основе информации из различных источников. Мы сравнили результаты HF-RAG с отдельными моделями и ранкингами, а также с другими подходами. Наши результаты показали, что HF-RAG постоянно превосходит лучший отдельный ранкинг или источник. Более того, он демонстрирует значительную выгоду в области общей обработки текста, где требуется гибкость и точность в работе с разными типами данных. ## Значимость Наш предложенный подход может применяться в различных областях, где необходима точная интерпретация текстовых данных, таких как моделирование языка, обработка новых образовательных текстов, а также системы поддержки решений в сложных ситуациях. Он предлагает выгоду в своих гибкости и способности объединять различные источники информации, что позволяет получить более валидные и точные выводы. Это может привести к улучшению производительности и точности алгоритмов в более широком контексте применения. ## Выводы HF-RAG демонстрирует, что комбинация различных источников данных и ранкингов мо

Annotation:

Leveraging both labeled (input-output associations) and unlabeled data (wider contextual grounding) may provide complementary benefits in retrieval augmented generation (RAG). However, effectively combining evidence from these heterogeneous sources is challenging as the respective similarity scores are not inter-comparable. Additionally, aggregating beliefs from the outputs of multiple rankers can improve the effectiveness of RAG. Our proposed method first aggregates the top-documents from a num...

ID: 2509.02837v1 cs.IR, cs.AI

arXiv PDF

📄 Grocery to General Merchandise: A Cross-Pollination Recommender using LLMs and Real-Time Cart Context

2025-09-05

Авторы:

Akshay Kekuda, Murali Mohana Krishna Dandu, Rimita Lahiri, Shiqin Cai, Sinduja Subramaniam, Evren Korpeoglu, Kannan Achan

Модернизированные электронные торговые платформы стремятся повысить качество пользовательского опыта, предлагая актуальные и контекстуально применимые рекомендации. Однако рекомендовать общий товарный ассортимент покупателям, сфокусированным на покупке продуктов питания, остается сложной задачей. В статье предлагается Cross-Pollination (XP) фреймворк, решающий эту проблему. Он объединяет grocery и general merchandise, используя многоисточниковные связи товаров и реальное временное положение корзины. Фреймворк имеет два этапа: (1) механизм генерации кандидатов, основанный на методах баскет-анализа и новых LLMs, для поиска соотношений между товарами; и (2) трансформер-базированный ранкер, использующий последовательность корзины для оптимизации поиска элементов, например add-to-cart. Анализы и онлайн-AB-тесты демонстрируют увеличение add-to-cart на 36% (LLM) и добавление 27% NDCG\@4 (cart context). Результаты показывают, что XP может стать эффективным инструментом для современных систем рекомендации.

Annotation:

Modern e-commerce platforms strive to enhance customer experience by providing timely and contextually relevant recommendations. However, recommending general merchandise to customers focused on grocery shopping -- such as pairing milk with a milk frother -- remains a critical yet under-explored challenge. This paper introduces a cross-pollination (XP) framework, a novel approach that bridges grocery and general merchandise cross-category recommendations by leveraging multi-source product associ...

ID: 2509.02890v1 cs.IR, cs.AI

arXiv PDF

📄 Breaking the Cold-Start Barrier: Reinforcement Learning with Double and Dueling DQNs

2025-09-02

Авторы:

Minda Zhao

## Контекст Recommender systems широко используются в цифровых платформах для предоставления персонализированных рекомендаций, но сталкиваются с осложнениями при работе с новыми пользователями или с небольшим историческим объемом взаимодействий. Этот аспект известен как "колдутство пользователя" (cold-start problem). Он ставит перед рекомендационными системами вызов: как динамически адаптироваться к новым пользователям, не имея достаточного объема данных для точных рекомендаций. Недостаток в использовании личных данных, таких как возраст, пол или информация о местоположении, также становится важной проблемой из-за роста заболевания около крупных данных. В этом контексте необходимо разработать методы, позволяющие рекомендационным системам эффективно ориентироваться в условиях отсутствия или ограниченности данных. ## Метод Методология, предложенная в статье, основывается на использовании динамических методов обучения с подкреплением (Reinforcement Learning, RL). В частности, в качестве основы выбраны две развитые модели DQN: Double DQN и Dueling DQN. Double DQN улучшает точность оценки вознаграждений, а Dueling DQN разделяет ценность (value) и приоритет (advantage) действий, что позволяет более эффективно обучаться в условиях плохого обучения. Метод также использует модель матричного факторирования для поиска скрытых предпочтений пользователей. Эти модели объединены в единую архитектуру, позволяющую эффективно обучаться от скелетных фидбеков новых пользователей, при этом избегая зависимости от чувствительных личных данных. ## Результаты Исследование проводилось на большом датасете электронной коммерции. Модель была сравнивалась с популярными методами, такими как популярность-ориентированные и активное обучение. Результаты показали, что использование Dueling DQN существенно уменьшает Root Mean Square Error (RMSE) для класса пользователей с низким интерактивным историческим объемом. Модель Double DQN также демонстрировала высокую точность, но Dueling DQN превосходила её в ситуациях с ограниченной информацией. Эти результаты указывают на эффективность подхода в условиях низкого данных и чувствительности к конфиденциальности. ## Значимость Предложенный подход имеет широкое применение в сферах, где необходима качественная рекомендация в условиях ограниченных данных, в том числе в e-commerce, социальных сетях и медицинских системах. Он обеспечивает более точные рекомендации без зависимости от чувствительных личных данных, что улучшает защиту конфиденциальности пользователя. Благодаря использованию RL, метод значительно улучшает адаптивность систем к новым пользователям, что делает его привлекательным для развивающихся платформ с бы

Annotation:

Recommender systems struggle to provide accurate suggestions to new users with limited interaction history, a challenge known as the cold-user problem. This paper proposes a reinforcement learning approach using Double and Dueling Deep Q-Networks (DQN) to dynamically learn user preferences from sparse feedback, enhancing recommendation accuracy without relying on sensitive demographic data. By integrating these advanced DQN variants with a matrix factorization model, we achieve superior performa...

ID: 2508.21259v1 cs.IR, cs.AI

arXiv PDF

📄 Stairway to Fairness: Connecting Group and Individual Fairness

2025-09-02

Авторы:

Theresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Falk Scholer, Christina Lioma

#### Контекст Fairness в рекомендательных системах (RS) традиционно делится на два типа: групповую и индивидуальную. Однако существуют недостатки в теоретическом понимании их взаимосвязи. Основная причина — различия в метриках и целях оценки для каждого типа. Из-за этого невозможно сравнить их прямо. Это означает, что неизвестно, насколько улучшение одного типа справедливости может повлиять на другой. Целью нашей исследовательской работы является заполнение этого пробела, определив и исследовав связь между групповой и индивидуальной справедливостью. #### Метод Наша исследовательская работа основывается на подробном анализе различных метрик, которые могут использоваться для оценки обеих типов справедливости. Мы проводили эксперименты с 8 выполнениями, используя 3 различных данные. Цель этих экспериментов — выявить связь между групповой и индивидуальной справедливостью, используя одни и те же метрики для оценки. #### Результаты Наши результаты показывают, что рекомендации, которые являются высокосправедливыми для групп, могут быть высоко несправедливыми для индивидуальных пользователей. Это новый и важный подход для практиков, которые стремятся улучшить справедливость в своих системах. Наш код доступен для ознакомления в репозитории на GitHub по адресу: `https://github.com/theresiavr/stairway-to-fairness`. #### Значимость Наши находки могут быть полезны в различных сферах, где используются рекомендательные системы, таких как электронная коммерция, социальные сети и медиа. Они позволяют практикам понять, насколько улучшение одного типа справедливости может повлиять на другой. Это позволяет значительно обогатить существующие подходы к концепции справедливости в RS. #### Выводы Мы установили, что существует значимый розни между групповой и индивидуальной справедливостью. Наши находки могут способствовать развитию новых методов, которые будут учитывать оба типа справедливости. Будущие исследования будут сосредоточены на разработке комплексных подходов, которые могут улучшить обе формы справедливости в рекомендательных системах.

Annotation:

Fairness in recommender systems (RSs) is commonly categorised into group fairness and individual fairness. However, there is no established scientific understanding of the relationship between the two fairness types, as prior work on both types has used different evaluation measures or evaluation objectives for each fairness type, thereby not allowing for a proper comparison of the two. As a result, it is currently not known how increasing one type of fairness may affect the other. To fill this ...

ID: 2508.21334v1 cs.IR, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Diffusion-based Multi-modal Synergy Interest Network for Click-through Rate Prediction

2025-09-02

Авторы:

Xiaoxi Cui, Weihai Lu, Yu Tong, Yiheng Li, Zhejun Zhao

#### Контекст Клик-тру рэйт (CTR) предсказание — ключевая задача в рекомендательных системах, которая стремится предсказать вероятность того, что пользователь щелкнет рекомендованный элемент. Основные методы CTR предсказания опираются на ID-модальность, но это недостаточно для полного охвата многообразных предпочтений пользователей. Многомодальное CTR-предсказание позволяет лучше учитывать различные аспекты пользовательских предпочтений, такие как текст, картинки и видео. Однако существующие методы многомодального фузирования часто не эффективно разделяют общие и специфичные черты каждой модальности и не учитывают синергетические эффекты между ними, что ограничивает их эффективность. #### Метод Мы предлагаем Diffusion-based Multi-modal Synergy Interest Network (Diff-MSIN) — рамочное решение для CTR-предсказания, основанное на методе диффузии. Основные модули фреймворка: Multi-modal Feature Enhancement (MFE), Synergistic Relationship Capture (SRC) и Feature Dynamic Adaptive Fusion (FDAF). MFE и SRC извлекают общие и специфичные черты каждой модальности, улучшая представление модальностей. Knowledge Decoupling метод используется для увеличения различий между фичами. FDAF акцентируется на снижении шума во время фузирования и усилении представления пользовательских предпочтений. #### Результаты Мы провели тщательные эксперименты на двух наборах данных: Rec-Tmall и трех Amazon-датасетах. В сравнении с базовыми моделями, Diff-MSIN демонстрирует существенные улучшения, с увеличением CTR на 1.67% и более. Эти результаты подтверждают высокую эффективность Diff-MSIN в моделировании многомодальных предпочтений пользователей и повышении точности CTR-предсказания. #### Значимость Предлагаемая модель может применяться в различных сценариях многомодального рекомендательного пространства, включая коммерческие платформы, социальные сети и игровые платформы. Diff-MSIN выделяется своей способностью эффективно объединять многомодальные данные, уменьшая шум и усиления релевантных черт. Это приносит повышенную точность, что может положительно сказаться на пользовательском опыте и доходами систем. #### Выводы Diff-MSIN достигает высокой точности в CTR-предсказании, опережая базовые модели на значительном расстоянии. Мы планируем продолжать развивать нашу модель, сконцентрировавшись на улучшении модулей и исследовании новых стратегий многомодального фузирования. Исходный код модели доступен по ссылке: [https://github.com/Cxx-0/Diff-MSIN](https://github.com/Cxx-0/Diff-MSIN).

Annotation:

In click-through rate prediction, click-through rate prediction is used to model users' interests. However, most of the existing CTR prediction methods are mainly based on the ID modality. As a result, they are unable to comprehensively model users' multi-modal preferences. Therefore, it is necessary to introduce multi-modal CTR prediction. Although it seems appealing to directly apply the existing multi-modal fusion methods to click-through rate prediction models, these methods (1) fail to effe...

ID: 2508.21460v1 cs.IR, cs.AI

arXiv PDF

📄 MPFormer: Adaptive Framework for Industrial Multi-Task Personalized Sequential Retriever

2025-08-30

Авторы:

Yijia Sun, Shanshan Huang, Linxiao Che, Haitao Lu, Qiang Luo, Kun Gai, Guorui Zhou

#### Контекст Modern industrial recommendation systems сталкиваются со сложной задачей оптимизации, когда необходимо учитывать множество задач одновременно. Например, во время поиска содержимого или рекомендации видео, необходимо учитывать не только рентабельность, но и пользовательский интерес, свежесть контента и другие факторы. Эта неоднородная структура задач часто приводит к конфликту между различными целями, который может быть неэффективно разрешен с помощью стандартных подходов. Одна из самых сложных проблем в этой области — это ситуация, когда необходимо оптимизировать несколько целей одновременно, но инструменты, используемые в рекомендательных системах, часто ориентированы только на одну цель. Эта проблема требует новых подходов, которые могут динамически адаптироваться к различным задачам и при этом сохранять эффективность и скорость выполнения. #### Метод MPFormer представляет собой динамическую систему, основанную на Transformer, которая разработана для решения задач многозадачной оптимизации в рекомендательных системах. Основное отличие этой модели заключается в том, что она использует **objective-conditioned Transformer**, который может динамически адаптироваться к разным целям. Это достигается за счет **learnable attention modulation**, который позволяет модели учитывать различные веса для каждой задачи в ходе поиска и рекомендации. Эта модель также включает в себя **personalized target weights**, чтобы сделать рекомендации более привлекательными для каждого пользователя. Также, MPFormer включает в себя **user personalization information** в свою структуру, чтобы улучшить представление пользовательских поведенческих данных. Эта модель является адаптивной и может автоматически регулироваться для разных задач, чтобы обеспечивать эффективное решение многозадачных задач в рекомендательных системах. #### Результаты Проведенные эксперименты показали, что MPFormer эффективно работает в реальных условиях. Она была интегрирована в Kuaishou short video recommendation system, которая обслуживает более 400 миллионов пользователей ежедневно. Исследования показали, что MPFormer улучшает **daily engagement** пользователей и **system operational efficiency**. Например, сравнительные тесты показали, что MPFormer более эффективно работает, чем стандартные модели, которые не имеют динамической адаптации к разным задачам. Это демонстрирует, что MPFormer может значительно улучшить качество рекомендаций, сохраняя высокую скорость обслуживания. Эти результаты подтверждают то, что MPFormer является новым шагом в области многозадачных рекомендательных систем. #### Значимость MPFormer может использоваться в различных сферах, включая short video platforms, e-commerce и другие сервисы, где необходима многозадачная оптимизация. Одним из основных преимуществ этой модели является ее **scalability** и **flexibility**, что позволяет ей быть эффективной в разных индустрияльных рекомен

Annotation:

Modern industrial recommendation systems encounter a core challenge of multi-stage optimization misalignment: a significant semantic gap exists between the multi-objective optimization paradigm widely used in the ranking phase and the single-objective modeling in the retrieve phase. Although the mainstream industry solution achieves multi-objective coverage through parallel multi-path single-objective retrieval, this approach leads to linear growth of training and serving resources with the numb...

ID: 2508.20400v1 cs.IR, cs.AI

arXiv PDF

1
2
13
14
15
16
17
21
22

Показано 141 - 150 из 211 записей