📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Generating Query-Relevant Document Summaries via Reinforcement Learning

2025-08-14

Авторы:

Nitin Yadav, Changsung Kang, Hongwei Shang, Ming Sun

## Контекст В e-commerce системах, поисковые модели часто опираются только на продуктные названия для оценки релевантности поисковых запросов. Такой подход ограничен, так как названия часто недостаточно информативны для точного понимания пользовательского запроса. Также, размерность и длительность продуктных описаний не позволяют использовать их в реальном времени для моделей ранжирования, которые требуют высокой производительности. Эти проблемы приводят к недостаточной точности релевантности. Наша мотивация заключается в создании эффективного и сжатого представления продуктных описаний, которое может быть использовано в реальном времени для улучшения поисковой релевантности. ## Метод Мы предлагаем ReLSum — рам框курентный фреймворк основанный на reinforcement learning (RL). Он использует модель третнего поколения широковещательной модели (LLM) для создания сжатых, относительных к запросу сводных текстов на основе описаний продуктов. Эти сводки подаются на вход кросс-энкодерной модели ранжирования. Метрики релевантности используются в качестве награды для обучения RL, чтобы выравнивать цели описания и оценки. Архитектура ReLSum включает в себя выделение ключевых фрагментов, генерацию описательных сводок и их оценку в контексте поискового запроса. ## Результаты Мы провели эксперименты на данных, содержащим продуктные описания и поисковые запросы. Результаты показали, что ReLSum превосходит современные подходы в offline метриках, таких как Recall@k и NDCG@k. Он также улучшил online метрики, включая клики и время на странице. Эти результаты подтверждают эффективность ReLSum в повышении релевантности поиска и повышении пользовательского заинтересованности. ## Значимость Приложение ReLSum может быть широко применено в e-commerce системах, системах поиска и рекомендаций. Его основные преимущества заключаются в более точных оценках релевантности, высокой производительности и стабильности. Будущие исследования будут направлены на улучшение моделей LLM для более точного сжатия и добиваться более высокого качества сводных текстов. ## Выводы ReLSum — это изобретательный подход для генерирования сводных текстов, который обеспечивает лучший trade-off между эффективностью и точностью. Наши результаты демонстрируют значительные улучшения в поисковой релевантности и пользовательском опыте в e-commerce. Мы планируем продолжить работу над улучшением моделей и оценки их на практике.

Annotation:

E-commerce search engines often rely solely on product titles as input for ranking models with latency constraints. However, this approach can result in suboptimal relevance predictions, as product titles often lack sufficient detail to capture query intent. While product descriptions provide richer information, their verbosity and length make them unsuitable for real-time ranking, particularly for computationally expensive architectures like cross-encoder ranking models. To address this challen...

ID: 2508.08404v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

2025-08-14

Авторы:

Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas

#### Контекст Оценка рекомендаций поддерживает ключевую роль в современных рекомендательных системах, позволяя измерить качество рекомендаций и улучшить пользовательский опыт. Тем не менее, в долгоформатовых доменах, таких как подкасты, существуют серьезные проблемы. Оффлайн методы, такие как проверка корреляции между рекомендациями и действиями пользователей, страдают от экспозиционного биаса, то есть неточностей в представлении данных. Альтернативным подходом — онлайн-тестированием, таким как A/B-тестирование — требуется большое количество ресурсов и является ограниченным в применении. Данная работа предлагает новый подход, использующий Аль LLM-ас-а-Jудж (LLM в роли судьи) для эффективного и интерпретируемого оценивания подкастов. #### Метод Предложенная методика использует два этапа. В первом этапе алгоритм строит профили пользователей на основе 90-дневной истории прослушивания. Эти профили содержат в себе два основных компонента: тематические интересы и поведенческие модели. Это позволяет представить пользователя как компактные, но осмысленные представления их предпочтений. Во втором этапе Аль LLM-ас-а-Jудж использует эти профили в качестве входных данных для оценки качества рекомендаций. Ламбда проводит подробные оценки для каждой пары пользователя-подкаста, основываясь на соответствии профиля и подкаста. Этот подход упрощает входные данные и улучшает их читаемость, позволяя лучше понять причины рекомендаций. #### Результаты В экспериментах использовались данные из 90-дневных прослушиваний пользователей. Оценивались качество рекомендаций и точность сравнения с реальными предпочтениями пользователей. Профиль-ауэс LLM-ас-а-Jудж был сравнен с двумя вариантами: одним использовался вход в виде голых данных, а другой — оценка без профилей. Аль LLM-ас-а-Jудж показал высокую точность в соответствии с реальными предпочтениями пользователей и при этом был удобнее в использовании, чем другие подходы. Это позволяет ему быть эффективным инструментом для тестирования и моделирования в рекомендательных системах. #### Значимость Предлагаемый подход может применяться в многих областях, где требуется эффективная и понятная оценка рекомендаций в долгоформатовых доменах. Он позволяет избежать неточностей, связанных с экспозиционным биасом, и упрощает оценку качества рекомендательных моделей. Данный подход может использоваться в итеративном тестировании и моделировании, предоставляя более четкое понимание качества рекомендательных систем. #### Выводы Профиль-ауэс LLM-ас-а-Jудж доказал свою эффективность в о

Annotation:

Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first...

ID: 2508.08777v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation

2025-08-13

Авторы:

Christos Tsirigotis, Vaibhav Adlakha, Joao Monteiro, Aaron Courville, Perouz Taslakian

#### Контекст Отношение "семантического поиска" к "информационному поиску" в целом можно сравнить со связью "экзотической кухни" к "повседневной кухне" — оно новое, сложное и еще не достигло широкого распространения. Dense retrieval, являющийся одним из основных компонентов semantic search, широко применяется в системах веб-поиска и корпоративных системах, но существуют проблемы с его эффективностью. Большинство существующих моделей для обучения dense retrieval полагаются на бинарные метки релевантности, где каждая пара "запрос-документ" либо релевантна, либо нет. Этот подход игнорирует тот факт, что релевантность часто субъективна и может быть представлена на промежуточном уровне. Более того, LLMs (large language models) стали позволять генерировать fine-grained релевантности, что может улучшить обучение моделей. Таким образом, целью данного исследования является разработка метода, который мог бы использовать эти промежуточные метки релевантности для повышения точности и стоимости обучения моделей. #### Метод Предлагаемый подход, названный BiXSE (Binary Cross-Entropy over LLM-Generated Graded Relevance), является простым и эффективным методом обучения, который использует binary cross-entropy (BCE) для оптимизации LLM-generated graded relevance scores. Эти scores подразумевают промежуточные значения релевантности, которые могут быть представлены в виде вероятностей. BiXSE игнорирует сложные подходы, такие как pairwise и listwise losses, которые требуют множества меток релевантности для каждого запроса. Вместо этого оно использует in-batch negatives, что позволяет эффективно обучать модель с меньшими затратами на аннотации и вычисления. Эта модель преобразует вероятности во финальные предсказания, используя техники, которые становятся возможными благодаря последним разработкам в области LLMs. #### Результаты Чтобы проверить эффективность BiXSE, проведены испытания на нескольких наборах данных, таких как MMTEB (для sentence embedding) и BEIR, TREC-DL (для retrieval). В этих экспериментах BiXSE показала себя лучше, чем модели, основанные на softmax-based contrastive learning (InfoNCE). Более того, BiXSE показала почти такие же результаты, как и модели с pairwise ranking, но с значительно меньшими затратами на обучение. Это означает, что BiXSE может предоставить мощный и эффективный метод для обучения dense retrieval с помощью LLM-supervised data, уменьшая необходимость в многочисленных метках релевантности и улучшая общую эффективность. #### Значимость Предложенный подход имеет широкие области применения, включая веб-поиск, корпоративные системы поиска и даже медицинские системы, где требуется точный semantic search. Одним из основных преимуществ BiXSE является своя экономичность, так как он требует меньшего количества аннотаций и ресурсов для обучения. Это может привести к созда

Annotation:

Neural sentence embedding models for dense retrieval typically rely on binary relevance labels, treating query-document pairs as either relevant or irrelevant. However, real-world relevance often exists on a continuum, and recent advances in large language models (LLMs) have made it feasible to scale the generation of fine-grained graded relevance labels. In this work, we propose BiXSE, a simple and effective pointwise training method that optimizes binary cross-entropy (BCE) over LLM-generated ...

ID: 2508.06781v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Multi-Faceted Large Embedding Tables for Pinterest Ads Ranking

2025-08-12

Авторы:

Runze Su, Jiayin Jin, Jiacheng Li, Sihan Wang, Guangtong Bai, Zelun Wang, Li Tang, Yixiong Meng, Huasen Wu, Zhimeng Pan, Kungang Li, Han Sun, Zhifang Liu, Haoyang Li, Siping Ji, Ling Leng, Prathibha Deshikachar

## Контекст В современных рекомендательных системах большие таблицы обработки входных данных (embedding tables) играют ключевую роль, позволяя эффективно запоминать интересные характеристики взаимодействий между различными субъектами. В Pinterest Ads, где рекомендательная система играет важную роль в подборе рекламных материалов, были определены ряд сложностей при использовании таких таблиц. Например, проблемы с пропусками (sparsity) и масштабированием стали существенными зданиями для нашего анализа. Также, попытки создать и обучить такие таблицы начиная с нуля привели к незначительным изменениям в основных метриках, таких как CTR (Click-Through Rate) и CVR (Conversion Rate). Эти ограничения привели к разработке продвинутых технических решений, включающих в себя многообразие подходов к предобучению (pretraining) для улучшения качества обработки входных данных. ## Метод Мы разработали многогранный подход к предобучению (multi-faceted pretraining) для больших таблиц обработки входных данных, который включает в себя несколько методов предобучения. Основная мотивация заключалась в том, чтобы улучшить качество предобучения, чтобы обеспечить эффективную обработку данных в рекомендательных системах. Наша архитектура включает гибридную систему обслуживания (CPU-GPU), позволяющую преодолеть ограничения памяти GPU. Мы также применяли продвинутые техники для работы с пропусками (sparsity), чтобы улучшить обработку данных в рекомендательных системах. Эти техники позволили нам создать уникальный подход к обработке данных в Pinterest Ads, который позволил повысить качество рекомендаций и уменьшить затраты на рекламу. ## Результаты Мы провели ряд экспериментов, используя разные данные и методы. В результате, мы заметили, что наш подход позволил повысить CTR на 2.60%, а CVR на 1.34%, при этом не изменяя общую задержку (end-to-end latency). Данные результаты подтверждают эффективность нашего многогранного подхода к предобучению, который позволяет повысить качество рекомендаций в рекомендательных системах, в то же время сохраняя эффективность и масштабируемость. Эти положительные результаты были получены благодаря нашему гибридному серверу, который удалось преодолеть ограничения памяти GPU и повысить масштабируемость. ## Значимость Многогранный подход к предобучению таблиц обработки входных данных имеет широкие возможности для применения в различных рекомендательных системах. Он позволяет улучшить качество рекомендаций и повысить эффективность обработки данных, что может привести к повышению конверсии и снижению затрат в рекламной области. Этот подход также имеет потенциал для применения в других сферах, где требуется эффективная обработка и анализ данных. Этот достижение демон

Annotation:

Large embedding tables are indispensable in modern recommendation systems, thanks to their ability to effectively capture and memorize intricate details of interactions among diverse entities. As we explore integrating large embedding tables into Pinterest's ads ranking models, we encountered not only common challenges such as sparsity and scalability, but also several obstacles unique to our context. Notably, our initial attempts to train large embedding tables from scratch resulted in neutral ...

ID: 2508.05700v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Realizing Scaling Laws in Recommender Systems: A Foundation-Expert Paradigm for Hyperscale Model Deployment

2025-08-09

Авторы:

Dai Li, Kevin Course, Wei Li, Hongwei Li, Jie Hua, Yiqi Chen, Zhao Zhu, Rui Jian, Xuan Cao, Bi Xue, Yu Shi, Jing Qian, Kai Ren, Matt Ma, Qunshu Zhang, Rui Li

**Резюме** Современные рекомендательные системы сталкиваются с значительными вызовами при масштабировании моделей, включая необходимость учитывать структуру потоковых данных, адаптироваться к различным рекомендательным поверхностям и соблюдать жесткие ограничения по задержке и вычислительной сложности. Для решения этих проблем предлагается **Foundation-Expert Paradigm**, ориентированная на развитие и развертывание масштабных моделей рекомендаций. Центральная модель обучается на кросс-сурфасной, мультимодальной данной для извлечения общей значимости, которая потом эффективно передается "экспертным" моделям, специально подготовленным для конкретных поверхностей и задач рекомендаций. Это решение реализовано в системе HyperCast, которая перерабатывает тренировку, развертывание и логирование, при этом сохраняя высокую производительность. Исследования показали, что данная модель улучшает онлайнные показатели и эффективность развертывания, являясь первым успешным примером такого подхода на масштабе Meta, предлагая эффективный и практичный метод для реализации сценариев масштабирования в рекомендательных системах.

Annotation:

While scaling laws promise significant performance gains for recommender systems, efficiently deploying hyperscale models remains a major unsolved challenge. In contrast to fields where FMs are already widely adopted such as natural language processing and computer vision, progress in recommender systems is hindered by unique challenges including the need to learn from online streaming data under shifting data distributions, the need to adapt to different recommendation surfaces with a wide dive...

ID: 2508.02929v2 cs.IR, cs.AI, cs.LG, 68T05, 68T07, 68T30, H.3.3; I.2.6

arXiv PDF

📄 LLM-based IR-system for Bank Supervisors

2025-08-09

Авторы:

Ilias Aarab

**Резюме** В статье представлена LLM-based IR-система, разработанная для поддержки банковских надзорных органов в создании консистентных и эффективных мер. Банковские надзорные органы часто сталкиваются с проблемой учета исторических прецедентов при выработке новых мер. Проектируемая система решает эту проблему, позволяя надзорным органам получить сведения из базы данных научных работ по аналогичным случаям. Она использует множественные методы поиска, включая лексический, семантический и fuzzy set matching по модели CRR, для точного выявления наиболее подходящих документов. Система проверена с помощью Monte Carlo-метода на частично отмеченных данных, показала высокую точность и устойчивость. Использование Transformer-based Denoising AutoEncoder для тюнинга позволило достичь высоких результатов: Mean Average Precision (MAP@100) — 0.83 и Mean Reciprocal Rank (MRR@100) — 0.92. Эти показатели превышают результаты однородных моделей BM25 и BERT-подобных. Таким образом, предложенная система является эффективным инструментом для повышения качества и согласованности нормативных мер в банковском надзоре.

Annotation:

Bank supervisors face the complex task of ensuring that new measures are consistently aligned with historical precedents. To address this challenge, we introduce a novel Information Retrieval (IR) System tailored to assist supervisors in drafting both consistent and effective measures. This system ingests findings from on-site investigations. It then retrieves the most relevant historical findings and their associated measures from a comprehensive database, providing a solid basis for supervisor...

ID: 2508.02945v1 cs.IR, cs.AI, cs.LG, stat.AP, stat.CO, 68P20, 68T50, 68T05, 62P20, 91G80, H.3.3; I.2.6; I.2.7; J.1

arXiv PDF

📄 LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations at eBay

2025-08-06

Авторы:

Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире электронной коммерции, где конкуренция среди продавцов постоянно растет, одним из ключевых факторов успешности рекламных кампаний является правильный выбор ключевых фраз для торгов на платформах, таких как eBay. Рекомендации по ключевым фразам должны быть релевантными и точно соответствовать интересам продавцов, а также поисковым запросам пользователей. Однако, из-за сложности получения негативных оценок от пользователей в больших масштабах, многие исследования начали использовать большие языковые модели (LLM) в качестве инструмента для имитации суждений продавцов. Основная проблема заключается в том, что традиционные модели на основе встраиваний (EBR) подвержены различным предвзятостям из-за данных о кликах, что может приводить к рекомендациям нерелевантных ключевых фраз. Это требует разработки новых методов, которые могли бы эффективно устранять такие предвзятости и обеспечивать высокую точность рекомендательных систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют инновационный двухшаговый процесс дистилляции LLM, который направлен на устранение предвзятостей в модели EBR. Методология включает использование LLM в качестве "судьи", который помогает скорректировать модель, чтобы она лучше соответствовала ожиданиям продавцов. Процесс дистилляции осуществляется через кросс-энкодер, который выступает в роли посредника между учителем LLM и учеником - би-энкодером. Используя подход мультизадачной тренировки, би-энкодер обучается извлекать релевантные ключевые фразы для рекламодателей. Эта методология позволяет эффективно интегрировать сигналы от LLM, улучшая производительность би-энкодера в сложных условиях реального мира. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты с использованием данных от eBay. В процессе экспериментов сравнивалась производительность традиционной модели на основе встраиваний с новой моделью, улучшенной за счет дистилляции LLM. Результаты показали, что интеграция знаний от LLM в мультизадачной тренировочной среде значительно улучшает способность би-энкодера извлекать релевантные ключевые фразы. Более того, новая модель продемонстрировала устойчивость к предвзятостям, характерным для данных о кликах, что привело к более точным рекомендациям и, как следствие, улучшению восприятия продавцами системы рекомендаций. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие перспективы применения в области электронной коммерции, особенно в контексте платформ с высокой конкуренцией, таких как eBay. Улучшение точности рекомендаций по ключевым фразам может способствовать увеличению эффективности рекламных кампаний, что, в свою очередь, приводит к повышению доходов продавцов и улучшению пользовательского опыта. Использование LLM для дистилляции знаний также открывает новые возможности для применения в других областях, где важно учитывать человеческие суждения и минимизировать предвзятости в данных. Таким образом, метод имеет потенциал для значительного влияния на развитие рекомендательных систем в целом. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного исследования является разработка эффективного метода дистилляции знаний от LLM для улучшения производительности моделей извлечения ключевых фраз. Этот метод не только устраняет предвзятости, но и обеспечивает соответствие рекомендаций ожиданиям пользователей, что является ключевым аспектом в контексте рекламных платформ. В будущем исследования могут быть направлены на дальнейшую оптимизацию предложенной архитектуры и расширение ее применения на другие сферы, требующие точных рекомендаций. Также перспективным направлением является изучение возможности интеграции других типов данных и методов машинного обучения для повышения адаптивности и точности рекомендательных систем.

Annotation:

Sellers at eBay are recommended keyphrases to bid on to enhance the performance of their advertising campaigns. The relevance of these keyphrases is crucial in avoiding the overcrowding of search systems with irrelevant items and maintaining a positive seller perception. It is essential that keyphrase recommendations align with both seller and Search judgments regarding auctions. Due to the difficulty in procuring negative human judgment at scale, employing LLM-as-a-judge to mimic seller judgmen...

ID: 2508.03628v1 cs.IR, cs.AI, cs.LG

arXiv PDF

Показано 21 - 27 из 27 записей