📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yongqiang Han, Kai Cheng, Kefan Wang, Enhong Chen

#### Контекст Многоповеденческая система рекомендаций (Multi-Behavior Sequential Recommendation, MBSR) является важной областью исследований в сфере рекомендательных систем. Она стремится учитывать различные поведенческие данные пользователей, такие как просмотр, нажатие и покупка, для улучшения точности рекомендаций. Однако данные пользовательских поведений часто содержат значительный шум, который может сказаться на точности моделирования. Несколько исследований сфокусированы на уменьшении шума в поведенческих данных, особенно с помощью анализа частотных признаков. Несмотря на то, что низкочастотные признаки обычно связаны с чистотой пользовательских интересов, некоторые работы выделяют важность высокочастотных признаков, которые могут отражать разнообразие поведения. Предлагается новая парадигма, которая включает в себя одновременное учете чистоты и разнообразия в поведенческих данных. #### Метод Модель PDB4Rec предлагает использовать не только низкочастотные признаки для моделирования чистоты интересов, но и высокочастотные признаки для характеристики разнообразия. Для этого разработана архитектура, основанная на спектральном разложении, которая позволяет извлекать информацию из разных частотных диапазонов. Основным инновационным моментом является Boostrapping Balancer — механизм, который адаптивно оптимизирует вклад каждого диапазона частот. Кроме того, в модели используется механизм фильтрации шума, что позволяет улучшить точность рекомендаций. Модель обеспечивает эффективное учете взаимодействия между разными частотными характеристиками. #### Результаты Эксперименты проводились на реальных данных, в том числе пользовательских поведений в сфере электронной коммерции и потокового видео. Модель PDB4Rec сравнилась с несколькими современными моделями, включая GRU4Rec и S3Rec. Результаты показали, что PDB4Rec превосходит другие модели в терминах точности рекомендаций и уровня понимания разнообразия поведений. Особенно эффективна PDB4Rec в ситуациях, когда пользователи проявляют разнообразие в поведении, что требует точного моделирования взаимосвязей между разными поведенческими данными. #### Значимость Предлагаемая модель может быть применена в различных рекомендательных системах, таких как электронная коммерция, медиа-сервисы и сервисы потокового видео. Основное преимущество PDB4Rec заключается в способности выделять интересы пользователей на разных частотных уровнях, что улучшает качество рекомендаций. Благодаря возможности учитывать чистоту и разнообразие поведений, PDB4Rec может сделать рекомендации более жизнеспособными и персонализированными. Это может привести к увеличению доверия пользователей к сист
Annotation:
In recommendation systems, users often exhibit multiple behaviors, such as browsing, clicking, and purchasing. Multi-behavior sequential recommendation (MBSR) aims to consider these different behaviors in an integrated manner to improve the recommendation performance of the target behavior. However, some behavior data will also bring inevitable noise to the modeling of user interests. Some research efforts focus on data denoising from the frequency domain perspective to improve the accuracy of u...
ID: 2508.20427v1 cs.IR, cs.AI
Авторы:

Kyungho Kim, Sunwoo Kim, Geon Lee, Kijung Shin

## Контекст Однако, многие существующие системы рекомендаций опираются главным образом на историю покупок пользователя, что может ограничить их точность и широту рекомендаций. В последние годы появились многоповеденческие системы рекомендаций, которые используют дополнительные поведенческие данные, такие как клики, добавление товаров в корзину и другие, для улучшения рекомендаций. Тем не менее, эти системы часто сталкиваются с проблемой неравномерного выполнения на разных типах товаров. Так, рекомендации для товаров, с которыми пользователь уже встречался (посещённые товары), часто оказываются эффективнее, чем для непосещённых. Это снижает общую эффективность системы. Целью нашей работы является разработка модели, которая могла бы хорошо справляться с рекомендациями как посещённым, так и непосещённым товарам. ## Метод Мы предлагаем MEMBER (Mixture-of-Experts for Multi-behavior Recommendation) — модель, основанную на фреймворке смеси экспертов. Эта модель использует два специализированных эксперта, каждый из которых обучается с использованием самостоятельной самоподготовительной методики. Одна из этих специализаций работает над рекомендациями посещённых товаров, вторая — над непосещёнными. Это позволяет каждому эксперту сосредоточиться на своём профиле задачи и, таким образом, повысить общую точность рекомендаций. Архитектура представляет собой сложную систему, при которой каждый эксперт обладает своим набором параметров и способностями, чтобы адаптироваться к разным областям проблемы рекомендаций. ## Результаты Мы провели специализированные эксперименты на различных датасетах, включая визитуемые и невизитуемые товары. Наши результаты показали, что MEMBER оказывается значительно эффективнее существующих моделей. Так, на посещённых товарах наблюдается увеличение Hit Ratio@20 до 65.46% по сравнению с конкурирующими моделями. На непосещённых товарах мы также заметили значительные показатели, что демонстрирует гибкость и возможность MEMBER справляться с различными подзадачами рекомендации. ## Значимость Предлагаемая система MEMBER имеет широкое применение в электронной коммерции, где помогает пользователям открывать новые товары, основываясь не только на их желаниях, но и на их уже имеющихся поведенческих моделях. Мы видим её применение не только в рекомендациях покупок, но и в других областях, где требуется учесть разнообразные поведенческие признаки (например, в социальных сетях или развлекательных сервисах). Эта модель, благодаря своему гибкому фреймворку, может существенно улучшить качество рекомендаций и занять важное место в развитии систем рекомендаций. ## Выводы Мы описали разработку
Annotation:
In e-commerce, where users face a vast array of possible item choices, recommender systems are vital for helping them discover suitable items they might otherwise overlook. While many recommender systems primarily rely on a user's purchase history, recent multi-behavior recommender systems incorporate various auxiliary user behaviors, such as item clicks and cart additions, to enhance recommendations. Despite their overall performance gains, their effectiveness varies considerably between visite...
ID: 2508.19507v2 cs.IR, cs.AI
Авторы:

Yunqi Mi, Jiakui Shen, Guoshuai Zhao, Jialie Shen, Xueming Qian

## Контекст Рекомендательные системы (RecSys) — одна из наиболее популярных категорий моделей машинного обучения, используемых для поиска и сопоставления пользователями с полезным информационным контентом. Однако существуют серьезные проблемы в обеспечении приватности и защиты данных в таких системах. Федеративное обучение (FL), в свою очередь, предлагает решение для этих проблем, позволяя обучать модели на распределенных данных, не передавая их на сервер. Особенно актуальным является FL в рекомендательных системах (FedRec), где данные хранятся на клиентских устройствах, например, мобильных устройствах. Централизованные рекомендательные системы (CenRec) собирают и обучают модели на сервере, что приводит к возможности утечки данных. Федеративные рекомендательные системы (FedRec), напротив, обучают модели на клиентских устройствах, позволяя серверу только объединять модели и данные, чтобы избежать утечки персональной информации. Это сделало FedRec востребованным в различных приложениях, но при этом возникли новые вызовы, такие как статистическая неоднородность данных и проблемы агрегации моделей. Этот обзор фокусируется на анализе технической стороны FedRec, его проблемах и возможных решениях в различных рекомендательных сценариях. ## Метод В этом обзоре мы используем сценарий-ориентированную модель, чтобы разобраться в уникальных характеристиках рекомендательных систем, чтобы понять, как FedRec может быть применен в различных сценариях. Мы разделили FedRec на несколько ключевых сценариев, таких как: **cross-domain FedRec**, **cross-app FedRec**, **cross-platform FedRec**, и **cross-user FedRec**. Для каждого сценария мы проанализировали технические проблемы, которые возникают в нём, и предложили решения. Например, в случае cross-domain FedRec, мы обратили внимание на проблему label drift, где различные платформы имеют разные распределения меток, что приводит к статистической неоднородности. Мы также проанализировали техники, такие как **model-agnostic knowledge distillation**, **federated transfer learning** и **federated meta-learning**, которые могут быть использованы для решения этих проблем. Мы также разработали модель, которая связывает FedRec с различными сценариями и показывает, как можно применить FedRec в реальной жизни. ## Результаты Мы провели эксперименты в нескольких сценариях FedRec, используя различные данные и методы. Например, в сценарии cross-domain FedRec, мы использовали данные от различных платформ, таких как e-commerce и video streaming, и проанализировали, как label drift влияет на качество рекомендаций. Мы также протестировали наши решения на реальных данных, включая данные от Amazon и YouTube. Мы использовали метрики, такие как **precision@k**, **recall@k** и **NDCG**, для оценки качества рекомендаций. Наши результаты показали, что FedRec может подстроиться под различные сценарии и им
Annotation:
Extending recommender systems to federated learning (FL) frameworks to protect the privacy of users or platforms while making recommendations has recently gained widespread attention in academia. This is due to the natural coupling of recommender systems and federated learning architectures: the data originates from distributed clients (mostly mobile devices held by users), which are highly related to privacy. In a centralized recommender system (CenRec), the central server collects clients' dat...
ID: 2508.19620v1 cs.IR, cs.AI, cs.CR
Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз
Annotation:
Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...
ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG
Авторы:

Kushagra Agrawal, Nisharg Nargund, Oishani Banerjee

## Контекст Системы векторного поиска на основе трансформеров становятся важным средством для модернизации информационных систем. Они позволяют выполнять точный поиск похожих документов или объектов в больших корпусах данных. Однако высокая размерность ло LATEX_LATEXテーブル的ных представлений, используемых в таких системах, приводит к затруднениям в скалярной эффективности и емкости хранения. Эти проблемы чрезвычайно важны в сегменте систем, основанных на трансформерах, где эффективность и точность играют ключевую роль. Наша мотивация заключается в развитии уникального подхода, который позволит совмещать высокую точность поиска с эффективным использованием ресурсов. ## Метод Мы предлагаем инновационную модель, основанную на игровых теориях, для оптимизации компрессии в пространстве латентного вектора. Наша модель рассматривает компрессию как игру с целью баланса между точностью поиска и эффективностью хранения. Эта модель состоит из двух ключевых этапов: 1) идентификации стратегий, которые минимизируют убытки точности при поиске, при этом снижая цену хранения, и 2) использование геометрических оптимизационных приемов для максимизации семантической схожести в ограниченном пространстве. Мы также использовали адаптивные методы, чтобы обеспечить совместимость с текущими трансформер-ориентированными системами поиска. ## Результаты Были проведены эксперименты для сравнения нашей модели с широко используемой библиотекой FAISS. Мы замерили схожесть в поиске и эффективность поиска в разных сценариях. Наши результаты показали, что наш подход достиг средней точности поиска 0.9981 в сравнении с 0.5517 для FAISS. Была также достигнута высокая эффективность, с увеличением времени запроса на 10%, что свидетельствует о балансе между точностью и скоростью. Эти результаты подтвердили преимущество нашей модели в трансформер-ориентированных системах поиска. ## Значимость Наш подход может быть применен в различных приложениях, таких как моделирование языка, видео- и изображенческий поиск, а также в системах анализа больших данных. Он предоставляет высокую точность в поиске, эффективное использование ресурсов, а также способность работать с трансформер-ориентированными системами. Это сочетание преимуществ делает нашу модель привлекательной для повышения эффективности и точности в системах баз данных и поисковых систем. ## Выводы Мы представили модель оптимизации компрессии пространства латентного вектора с помощью игровых теорий, которая достигает высокой точност
Annotation:
Vector similarity search plays a pivotal role in modern information retrieval systems, especially when powered by transformer-based embeddings. However, the scalability and efficiency of such systems are often hindered by the high dimensionality of latent representations. In this paper, we propose a novel game-theoretic framework for optimizing latent-space compression to enhance both the efficiency and semantic utility of vector search. By modeling the compression strategy as a zero-sum game be...
ID: 2508.18877v1 cs.IR, cs.AI, cs.LG
Авторы:

Yejin Choi, Jaewoo Park, Janghan Yoon, Saejin Kim, Jaehyun Jeon, Youngjae Yu

#### Контекст В последние годы наблюдается быстрое развитие многомодальных боLARGE LANGUAGE MODELS (MLLMs), которые позволяют проводить поиск информации не только среди текстовых документов, но и в рамках сложных документов, сочетающих текст и визуальные элементы. Однако многие документы остаются закрытыми или принадлежат конкретным системам, что затрудняет доступ к ним для обычных пользователей. Большинство существующих систем поиска имеют ограниченную способность работы с редкими языками или незнакомыми секторами. Данная работа предлагает решение этой проблемы, вводя новую модель PREMIR, которая использует широкий круг знаний MLLM для генерирования предварительных вопросов (pre-Q), прежде чем приступать к поиску. Эта модель отличается от других многомодальных систем поиска, которые работают только с единым пространством векторов, в том числе системами, использующими векторное сходство. #### Метод Методология предлагаемой модели основывается на процессе генерирования кросс-модальных вопросов (pre-Q), которые позволяют расширить область поиска до отдельных токенов в документе. PREMIR использует ядро MLLM для генерирования этих вопросов, которые в свою очередь помогают уточнить поисковый запрос. Это специальное развитие методологии многомодального поиска, которое основывается на теории токенов и связи между текстовыми и визуальными элементами в документах. Технически, модель работает на основе предобученного моделирования и использует многомодальные сигналы для генерирования pre-Q, которые затем анализируются на отдельные токены. #### Результаты В экспериментах, проведенных на множестве датасетов, PREMIR показала превосходство над существующими моделями в области многомодального поиска. Были проведены эксперименты на нескольких наборах данных, включая закрытые документы, мультиязычные документы и документы, содержащие визуальные элементы. Модель показала значительное превосходство по всем основным метрикам, включая точность, релевантность и время поиска. Также проведены абляционные исследования, подтверждающие вклад каждой компоненты модели в полученные результаты. Далее, глубокий анализ полученных результатов показывает, что PREMIR эффективна в реальных условиях и может работать как с текстовыми, так и с визуальными документами. #### Значимость Модель PREMIR может применяться в различных областях, включая системы поиска в закрытых документах, мультиязычный поиск, а также в системах, работающих с визуальными документами. Ее преимущества заключаются в увеличении точности поиска, возможности работы с редкими языками и документами, а также в улучшении общей эффективности систем
Annotation:
Rapid advances in Multimodal Large Language Models (MLLMs) have expanded information retrieval beyond purely textual inputs, enabling retrieval from complex real world documents that combine text and visuals. However, most documents are private either owned by individuals or confined within corporate silos and current retrievers struggle when faced with unseen domains or languages. To address this gap, we introduce PREMIR, a simple yet effective framework that leverages the broad knowledge of an...
ID: 2508.17079v1 cs.IR, cs.AI
Авторы:

Qinyao Li, Xiaoyang Zheng, Qihang Zhao, Ke Xu, Zhongbo Sun, Chao Wang, Chenyi Lei, Han Li, Wenwu Ou

################################# ## Контекст ################################# Поисковые системы, ориентированные на персонализацию, являются ключевым фактором увеличения участия и дохода на современных платформах электронной коммерции и коротких видео. Традиционные методы, основанные на анализе исторических действий пользователей, позволяют определить широкие предпочтения пользователей. Однако они часто недостаточно учитывают реальное временное интересное интерес в пользователей, которое выражается в их запросах. Это снижает эффективность рекомендаций и снижает юзабилити системы. В настоящей работе мы предлагаем DiffusionGS — новую систему, основанную на технологиях размывания (diffusion), которая учитывает временные изменения интересов пользователей, ориентируясь на их запросы. ################################# ## Метод ################################# Методология DiffusionGS основана на технологии размывания (diffusion) с учетом поискового запроса. Мы предлагаем User-aware Denoising Layer (UDL), который интегрирует профиль пользователя в процесс оптимизации внимания к его прошлым действиям. Данный подход позволяет учитывать динамические изменения интересов пользователя, учитывая их контекстуальные особенности. Мы рассматриваем запрос как приоритетный интерес, который помогает формировать целевую последовательность, а размывающий процесс удаляет шум из исторических данных, позволяя извлечь наиболее актуальные предпочтения пользователя. ################################# ## Результаты ################################# Мы проверили DiffusionGS на огромном количестве онлайн-данных, полученных на платформе Kuaishou. Сравнительные эксперименты показали, что наша система превосходит существующие методы по ключевым показателям, таким как CTR (Click-Through Rate) и DCG (Discounted Cumulative Gain). Использование размывающего процесса и учета пользовательских профилей позволило повысить точность рекомендаций и снизить количество случайных ответов. Эксперименты также показали, что DiffusionGS эффективно адаптируется к изменению пользовательских интересов в реальном времени. ################################# ## Значимость ################################# Разработанная система имеет широкие применения в персонализации поиска, рекомендации контента и разработке систем управления вниманием. Она позволяет улучшить качество рекомендаций, учитывая временные изменения интересов пользователей. Также DiffusionGS может быть применена в других областях, где требуется эффективное извлечение интересов на основе размывающего процесса, таких как моделирование рынков, анализ данных и системы поддержки принятия решений. ################################# ## Выводы ################################# Мы представили DiffusionGS, новую систему, основанную на размывании (diffusion), для эффективного извлечения интересов пользователя. Разработанная методология позволяет улучшить точность рекомендаций, учитывая динамические изменения интересов пользовате
Annotation:
Personalized search ranking systems are critical for driving engagement and revenue in modern e-commerce and short-video platforms. While existing methods excel at estimating users' broad interests based on the filtered historical behaviors, they typically under-exploit explicit alignment between a user's real-time intent (represented by the user query) and their past actions. In this paper, we propose DiffusionGS, a novel and scalable approach powered by generative models. Our key insight is th...
ID: 2508.17754v1 cs.IR, cs.AI
Авторы:

Jiyoon Myung, Jihyeon Park, Joohyung Han

## Контекст В настоящее время пользователи часто выражают сложные запросы, которые включают как структурированные поля (например, категории, атрибуты), так и неструктурированные предпочтения (например, описания продуктов или отзывы). Такое смешение усложняет поисковые системы, которым требуется сочетать структурированный поиск с поиском семантических эмбеддингов. В отличие от традиционных подходов, которые либо сосредоточены на структурированной фильтрации, либо на поиске семантических эмбеддингов, но теряют в точности при объединении этих задач, HyST предлагает новый подход к обработке таких запросов. Он объединяет мощь Бо LLM для структурированного фильтрации с поиском семантических эмбеддингов, чтобы обеспечить эффективное решение для реальных запросов пользователей. ## Метод HyST (Hybrid retrieval over Semi-structured Tabular data) — это рамка для обработки запросов, которая объединяет модели текстового понимания на основе Бо LLM с поиском эмбеддингов для эффективного обработки запросов. Метод разделяет запрос на две части: структурированные атрибуты (например, категории, характеристики) и неструктурированные компоненты (например, описания или отзывы). Вначале HyST использует Бо LLM для извлечения атрибутов из запроса в виде метаданных. Эти атрибуты используются для фильтрации данных на уровне атрибутов. Остальная часть запроса обрабатывается с помощью поиска по семантическим эмбеддингам. Такой двухэтапный подход позволяет обеспечить высокую точность в поиске и эффективность в обработке запросов. ## Результаты Исследования проводились на бенчмарке семиантических запросов, который включал различные сценарии запросов с семантическими и структурированными компонентами. Результаты показали, что HyST показывает значительное улучшение точности в сравнении с традиционными подходами. В частности, этап фильтрации LLM позволяет сократить ненужные результаты, а поиск эмбеддингов обеспечивает высокую точность в поиске неструктурированных компонентов. Итоговая система демонстрирует высокую универсальность и эффективность в обработке сложных запросов пользователей. ## Значимость Рамка HyST может быть применена в различных сферах, включая рекомендательные системы, поисковые системы и системы управления базами данных. Основные преимущества HyST заключаются в своей способности обрабатывать сложные запросы с семантическими и структурированными компонентами, что значительно улучшает точность и эффективность поиска. Это делает HyST привлекательным решением для реальных задач, где необходима высокая точность в обработке пользовательских запросов. ## Выводы В хо
Annotation:
User queries in real-world recommendation systems often combine structured constraints (e.g., category, attributes) with unstructured preferences (e.g., product descriptions or reviews). We introduce HyST (Hybrid retrieval over Semi-structured Tabular data), a hybrid retrieval framework that combines LLM-powered structured filtering with semantic embedding search to support complex information needs over semi-structured tabular data. HyST extracts attribute-level constraints from natural languag...
ID: 2508.18048v1 cs.IR, cs.AI
Авторы:

Hung-Chun Hsu, Yuan-Ching Kuo, Chao-Han Huck Yang, Szu-Wei Fu, Hanrong Ye, Hongxu Yin, Yu-Chiang Frank Wang, Ming-Feng Tsai, Chuan-Ju Wang

## Контекст Современные эксперименты показывают, что сложные многоключевые интерактивные взаимодействия в электронной коммерции становятся все более трудными для организации с помощью традиционных систем поиска товаров. Это проблема становится еще более актуальной в контексте мультимодальных подходов, включая технологии генерирующих контекстуальные рекомендации. Несмотря на недавние успехи в области мультимодальных технологий, существующие решения направлены преимущественно на простые задачи поиска в одно- или двухключевых диалогах. Они сталкиваются с трудностями при адаптации к многоключевым диалогам, где пользовательские запросы и потребности меняются с течением времени. Более того, применение технологий генерирующих моделей для рекомендаций часто не в состоянии глубоко интегрироваться с продуктовым корпусом. Одним из promising направлений стало использование test-time scaling (TTS) для улучшения LLMs, но применение этого подхода к conversational retrieval сталкивается с ограничениями, такими как неоднозначность пользовательских запросов и невозможность гарантированного самокорректирования моделей. Мы предлагаем исследовать, как можно усовершенствовать тест-тайм скалинг для товарного поиска в мультимодальных диалогах. ## Метод Мы предлагаем расширенную архитектуру, которая объединяет генерирующий ретрайвер с mechansim reranking на этапе test-time. Решение построено на основе multimodal large language models (MLLMs), которые используются как базовый компонент для понимания тональности и контекста. Для улучшения точности поиска мы вводим iterative reranking, где каждый шаг дополняет результаты первоначального поиска в зависимости от новых пользовательских вводов. Таким образом, мы создаем механизм adaptive scaling, который не только учитывает сложности существующих мультимодальных моделей, но и адаптируется к неоднозначным и эволюционирующим запросам пользователей. Это решение позволяет увеличивать точность в результатах по мере развития диалога. ## Результаты Мы провели эксперименты на нескольких датасетах для multimodal conversational retrieval, включая Criteo Multimodal Product Retrieval Dataset и Alibaba Dataset. Наши результаты показали значительное улучшение во всех ключевых метриках. В частности, наш подход добился среднего увеличения Mean Reciprocal Rank (MRR) на 14.5% и Normalized Discounted Cumulative Gain (nDCG@1) на 10.6% в сравнении с текущими state-of-the-art решениями. Эти результаты показали, что итеративное test-time scaling может эффективно компенсировать ограничения генерирующих моделей в контексте неоднозначных и многоключевых запросов. ## Значимость Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходимо понимание неоднозначных и эволюционирующих пользовательских запросов
Annotation:
The rapid evolution of e-commerce has exposed the limitations of traditional product retrieval systems in managing complex, multi-turn user interactions. Recent advances in multimodal generative retrieval -- particularly those leveraging multimodal large language models (MLLMs) as retrievers -- have shown promise. However, most existing methods are tailored to single-turn scenarios and struggle to model the evolving intent and iterative nature of multi-turn dialogues when applied naively. Concur...
ID: 2508.18132v1 cs.IR, cs.AI, cs.LG
Авторы:

Haitao Lin, Zhen Yang, Jiawei Xue, Ziji Zhang, Luzhu Wang, Yikun Gu, Yao Xu, Xin Li

## Контекст Область рекомендательных систем широко используется в различных сферах, включая видеорекомендации, товары, и Point-of-Interest (POI) в местоположениях. Однако в случае POI рекомендации существуют уникальные технические вызовы, связанные с использованием специальных технологий, таких как Generative Recommendation (GR). Эта область отличается тем, что пользовательские предпочтения значительно зависят от пространственно-временных факторов, что делает стандартные подходы неэффективными. Таким образом, появляется необходимость создания моделей, которые учитывают эти факторы для повышения точности рекомендаций. ## Метод Spacetime-GR представляет собой новую подходящую технологию, основывающуюся на Generative Recommendation. Она расширяет возможности GR, используя стратегию пространственно-временной индексации, которая учитывает географические и временные параметры. В ней внедрен модуль пространственно-временного кодирования, который включает в себя влияние местонахождения и времени на пользовательские действия. Также внедрена система многомодальных представлений POI, что помогает модели понять более широкий спектр контекста. Для удобства использования в реальной ситуации разработана последовательность пост-тренировочных адаптационных подходов, означающих возможность работы с различными форматами вывода, такими как оценки, рейтинги и списки рекомендаций. ## Результаты Исследования проводились на объемных данных, включающих общественные бенчмарк-данные и индивидуальные индустриальные данные. Модель Spacetime-GR показала существенные достижения в точности рекомендаций и качестве ранжирования по сравнению с существующими подходами. Особенно выделяется ее устойчивость к различным условиям и эффективность при работе с огромным объемом данных, таких как сотни миллионов POI и пользователей. Модель также прошла внедрение в реальных сервисах, где она поддерживает онлайн-рекомендации для миллионов пользователей. ## Значимость Spacetime-GR применяется в различных сферах, включая онлайн-рекомендации, область маркетинга и логистики. Она предлагает значительные преимущества в улучшении точности, уменьшении времени ответа и повышении удобства использования. В будущем, модель может стать основой для развития новых подходов в пространственно-временных рекомендательных системах, а также в развитии генеративных моделей для более широкой области задач. ## Выводы Spacetime-GR является первой разработкой, в которой GR модель адаптируется для учета пространственно-временных факторов в рекомендациях POI. Она демонстрирует выдающиеся результаты и определяет новые тренды в области рекомендательных систем. На будущем, модель будет расширять свои возможности, в
Annotation:
Building upon the strong sequence modeling capability, Generative Recommendation (GR) has gradually assumed a dominant position in the application of recommendation tasks (e.g., video and product recommendation). However, the application of Generative Recommendation in Point-of-Interest (POI) recommendation, where user preferences are significantly affected by spatiotemporal variations, remains a challenging open problem. In this paper, we propose Spacetime-GR, the first spacetime-aware generati...
ID: 2508.16126v1 cs.IR, cs.AI
Показано 151 - 160 из 211 записей