📚 Саммари научных статей из arXiv

Найдено 38 результатов по запросу 'cs.IR, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Retro*: Optimizing LLMs for Reasoning-Intensive Document Retrieval

2025-10-01

Авторы:

Junwei Lan, Jianlyu Chen, Zheng Liu, Chaofan Li, Siqi Bao, Defu Lian

#### Контекст Современные глубоко обученные языковые модели (LLM) позволяют решать сложные задачи, включая документ-регрессию (RAG), где необходимо выявлять информацию из документов для решения задач. Однако возникает проблема точной оценки связи между задачей и кандидатскими документами, особенно когда эта связь не является явной. Это создает серьезные обрестки для существующих методов информационного поиска (IR). Недостаток точности и эффективности в оценке связи приводит к неверным выводам и неэффективности в использовании ресурсов. Таким образом, нужна новая методология, которая бы учитывала тонкую логику при оценивании документов и повышала производительность в целом. #### Метод Мы предлагаем Retro*, новую систему для решения документ-регрессии, основанную на рейтинге согласно четко определенным критериям. Метод включает в себя следующие элементы: 1. **Рубрика-ориентированная оценка релевантности**: Retro* использует формальные критерии для оценки того, насколько документ отвечает требованиям задачи. Это позволяет получить развернутую интерпретируемую оценку релевантности. 2. **Множественные пути рассуждения**: Метод поддерживает тестирование, объединяя несколько логических траекторий в единый балл релевантности, что повышает точность оценки. 3. **Оптимизация через RL**: Мы предлагаем усовершенствованный алгоритм, который использует два композитных признака для оценки каждого образца во время тренировки. Эти черты обеспечивают глубокую работу с логическими задачами и эффективность в применении. #### Результаты Мы проверили Retro* на BRIGHT benchmark, что позволило сравнить его с другими существующими методами. Результаты показали, что Retro* показывает значительное превосходство в долготерминальной точности и эффективности. Таким образом, Retro* демонстрирует новую стандартную систему по работе с документ-регрессией, показывая выдающиеся результаты в сложных сценариях с малой или неявной связью между задачей и документом. #### Значимость Предложенная система может использоваться в различных областях, где требуется точная интерпретация документов, например, в здравоохранении, в системах поддержки решений и в системах управления бизнес-данными. В отличие от существующих подходов, Retro* обеспечивает: - **Точность**: Оценка релевантности с более высоким уровнем точности. - **Производительность**: Высокая скорость и эффективность при работе с большими объемами данных. - **Скейлинг**: Может работать в различных условиях с ресурсоемкими задачами. #### Выводы Retro* представляет собой совершенно новый подход к до

Annotation:

With the growing popularity of LLM agents and RAG, it has become increasingly important to retrieve documents that are essential for solving a task, even when their connection to the task is indirect or implicit. Addressing this problem requires fine-grained reasoning to accurately assess the relevance between the task and each candidate document. This capability, however, poses a significant challenge for existing IR techniques. Despite recent progress in reasoning-enhanced IR, existing approac...

ID: 2509.24869v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System

2025-09-24

Авторы:

Sunhao Dai, Jiakai Tang, Jiahua Wu, Kun Wang, Yuxuan Zhu, Bingjun Chen, Bangyang Hong, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Wenjie Wang, Xu Chen, Jun Xu, See-Kiong Ng

## Контекст В последние годы становится все более очевидным, что технологии глубокого обучения постепенно трансформируют индустрии, в том числе системы поиска и рекомендаций. Однако, несмотря на всплеск интереса к широкому применению трансформерных архитектур, преимущества, которые они приносят, часто остаются ограниченными. Это можно объяснить тем, что большинство индустриальных систем продолжают опираться на Deep Learning Recommendation Models (DLRMs), ограничиваясь их модификациями. В то же время значительные преимущества, которые приносят технологии, такие как глубокий ранжирований (LLMs), возникают не только из-за изобретений в архитектуре, но и благодаря таким механизмам, как контекстное обогащение и многошаговая логика. Эти механизмы, однако, в рамках индустриальных систем ранжирования, до сих пор остаются недостаточно исследованными. ## Метод OnePiece представляет собой новую архитектуру, которая успешно интегрирует механизмы контекстного обогащения и многошагового рефинемента в ранжирование и поиск в составе индустриальных пайплайнов. Эта модель основывается на трансформерной структуре, но имеет уникальные особенности: (1) **Структурированное контекстное обогащение**, прикрепляющее к входным сигналам как интересы пользователя, так и контекстные признаки сценариев, представленные в виде входных токенов; (2) **Блочное логическое обогащение**, которое вводит итеративные шаги рефинемента представлений, возможность которых растет вместе с размером блока; (3) **Прогрессивное мульти-задачное обучение**, которое строится на цепочках пользовательских фидбеков, позволяя контролировать процесс обучения при развитии модели. ## Результаты Для оценки модели OnePiece проводились различные эксперименты на реальных данных. Мы использовали большие наборы данных из индустриальных систем поиска и рекомендаций. Методами анализа метрик, таких как GMV/UU и доходы из рекламы, были получены очевидные показатели улучшения. Например, исследования показали, что OnePiece добавила до $+2\%$ GMV/UU и $+2.90\%$ в доходы от рекламы. Эти результаты подтверждают, что OnePiece не только улучшает ранжирование, но и увеличивает эффективность системы в целом. ## Значимость Помимо основного применения в системах поиска и рекомендаций, OnePiece может быть распространена в различных индустрияльных сценариях, таких как моделирование поведения покупателей, улучшение рекомендаций в контексте транзакционных систем. Основным преимуществом OnePiece является её способность улучшить качество рекомендаций в целостных индустриальных пайплайнах, что способствует повышению пользовательского привлечения и эффекти

Annotation:

Despite the growing interest in replicating the scaled success of large language models (LLMs) in industrial search and recommender systems, most existing industrial efforts remain limited to transplanting Transformer architectures, which bring only incremental improvements over strong Deep Learning Recommendation Models (DLRMs). From a first principle perspective, the breakthroughs of LLMs stem not only from their architectures but also from two complementary mechanisms: context engineering, wh...

ID: 2509.18091v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 Efficient and Versatile Model for Multilingual Information Retrieval of Islamic Text: Development and Deployment in Real-World Scenarios

2025-09-22

Авторы:

Vera Pavlova, Mohammed Makhlouf

#### Контекст Информационное поисковое обращение (Information Retrieval, IR) широко применяется в различных сферах жизнедеятельности, включая литературные исследования, юридическое обслуживание, медицинское обслуживание и многие другие. Однако в области исследований, посвященных многоязычному IR, существует необходимость в более глубоком исследовании, как модели могут применяться в реальном мире. Это главная мотивация для данного исследования. Особенно актуальной является задача разработки модели, которая могла бы быть полезна в уникальных источниках знаний, таких как Коран. Данная работа посвящена поиску и разработке методологии, которая была бы эффективна для многоязычного поиска в контексте Ислама. #### Метод В ходе работы была разработана и протестирована 11 моделей извлечения информации, используя четыре различные методики обучения: монолингвальная, кросс-лингвальная, train-all (обучение на транслированных данных) и смешанная (комбинация монолингвального и кросс-лингвального обучения). На каждой модели был проведен эксперимент по извлечению ответов на вопросы в различных языковых контекстах. Использовались специально подготовленные данные в формате SQuAD, где задания были переведены на несколько языков, чтобы охватить широкий круг пользователей. Архитектура модели основывалась на предварительно обученных моделях для многоязычного текста, адаптированных для поиска в контексте Корана. #### Результаты Проведенные эксперименты показали, что модель, обученная смешанным методом, обеспечивает наиболее эффективные результаты в различных сценариях извлечения информации. Эта модель не только показала высокую точность в извлечении ответов, но и продемонстрировала высокую универсальность для различных языков. Особенно важно, что эта модель может быть развернута в реальных условиях, показывая большую эффективность в сравнении с другими моделями. Был проведен подробный анализ, показывающий, как различные методики обучения влияют на эмбеддинг-пространство и, как следствие, на эффективность поиска. #### Значимость Разработанная модель показала себя как эффективная и универсальная для многоязычного извлечения информации в контексте Ислама. Она может быть применена в различных сферах, включая образовательные ресурсы, учебные курсы, и медицинскую информацию. Особенно ценным является ее мобильность и затраты на развертывание, так как модель является легковесной и может быть развернута в разных средах. Это позволяет снизить затраты и увеличить доступность решения для пользователей. #### Выводы Разработанная модель демонстрирует высокую эффектив

Annotation:

Despite recent advancements in Multilingual Information Retrieval (MLIR), a significant gap remains between research and practical deployment. Many studies assess MLIR performance in isolated settings, limiting their applicability to real-world scenarios. In this work, we leverage the unique characteristics of the Quranic multilingual corpus to examine the optimal strategies to develop an ad-hoc IR system for the Islamic domain that is designed to satisfy users' information needs in multiple lan...

ID: 2509.15380v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering

2025-09-18

Авторы:

Zihan Wang, Zihan Liang, Zhou Shao, Yufei Ma, Huangyu Dai, Ben Chen, Lingtao Mao, Chenyi Lei, Yuqing Ding, Han Li

## Контекст Retrieval-Augmented Generation (RAG) является прорывом в области генерируемых бо LLM-системами текстов, способствуя решению трех основных проблем: hallucination, устаревшей информации и отсутствия ссылок. Однако, существующие RAG-фреймворки часто сталкиваются с проблемой оценки значимости полученных документов для генерации точных ответов. Это затрудняет отбор нужных фрагментов и отсеивание ненужных, что влияет на качество ответа. Для решения этой проблемы нужна метрика, которая сможет эффективно оценивать вклад каждого документа в генерацию корректных ответов. ## Метод Мы предлагаем **Document Information Gain (DIG)** — новую метрику для оценки значимости документов. DIG вычисляется как разница между уровнем уверенности LLM в генерации ответов с использованием документа и без него. Мы также предлагаем **InfoGain-RAG** — фреймворк, использующий DIG для построения специальной системы рейтингов. Эта система отбирает документы с наиболее точным соотнесением и отсеивает ненужные, улучшая результат генерации ответов. ## Результаты Мы провели эксперименты на различных моделях и наборах данных. На NaturalQA InfoGain-RAG показал улучшение в exact match accuracy на 17.9%, 4.5% и 12.5% по сравнению с тремя популярными RAG-решениями. На GPT-4o InfoGain-RAG дал среднее увеличение точности ответов на 15.3% по всем датасетам. Эти результаты доказывают, что InfoGain-RAG эффективно отбирает значимые документы и улучшает качество генерируемых ответов в разных сценариях. ## Значимость Предложенный подход может быть применен в различных областях, где требуется высококачественная информация, таких как здравоохранение, юридическое обслуживание и финансы. Он позволяет избегать ошибок, связанных с неточными ответами, и повышает уровень доверия к генерируемым текстам. Этот фреймворк может полностью изменить стандарты в области RAG. ## Выводы Мы представили InfoGain-RAG — систему, которая доказала свою эффективность в локализации и отборе наиболее полезных документов. Наше исследование открывает новые пути для развития RAG, стабилизируя его и улучшая качество генерируемых ответов. Мы также планируем продолжать работу над улучшением DIG и интеграцией с другими моделями.

Annotation:

Retrieval-Augmented Generation (RAG) has emerged as a promising approach to address key limitations of Large Language Models (LLMs), such as hallucination, outdated knowledge, and lacking reference. However, current RAG frameworks often struggle with identifying whether retrieved documents meaningfully contribute to answer generation. This shortcoming makes it difficult to filter out irrelevant or even misleading content, which notably impacts the final performance. In this paper, we propose Doc...

ID: 2509.12765v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations

2025-09-13

Авторы:

Zakaria El Kassimi, Fares Fourati, Mohamed-Slim Alouini

#### Контекст Вопрос возникновения этого исследования связан с необходимостью обеспечить надежные и точные интерпретации правил радиокоммуникаций, которые являются ключевыми для работы в области связи. Эти правила не только регулируют технические аспекты систем связи, но и имеют юридическую и стратегическую важность. Ошибки в интерпретации могут привести к серьезным последствиям, включая юридические споры и технические неполадки. Несмотря на то, что существуют системы генерации ответов на вопросы, их применение в такой высококачественной и реалистичной области, как радиоправо, показывает значительные недостатки, в основном из-за отсутствия конкретных методов и архитектур, специализированных для этого домена. #### Метод Мы предлагаем новую методологию, объединяющую расширенную генерацию и вспомогательную поисковую систему, названную Retrieval-Augmented Generation (RAG). Этот подход включает в себя следующие этапы: 1) Извлечение подходящих документов из базы знаний, специально подготовленной для радиокоммуникаций; 2) Оценка качества извлеченных документов с помощью доменно-специфического метрического показателя; 3) Использование извлеченных документов для надёжной интерпретации вопросов и генерирования ответов. Мы также вводим новую многовариантную оценочную множество вопросов, конструированных на основе авторитетных источников, которые прошли автоматическую фильтрацию и ручную верификацию. #### Результаты Мы проводили эксперименты с несколькими моделями генерации ответов, включая GPT-4o. Наши результаты показывают, что применение RAG-пайплайна существенно повышает точность генерации ответов. Например, при традиционном подходе с простой вставкой документов в GPT-4o улучшение составляет менее 1%, в то время как при использовании пайплайна RAG эффект наблюдается в размере почти 12% относительного увеличения точности. Эта разница отражает эффективность направленного поиска и грундинга в контексте регуляторного вопроса-ответа. #### Значимость Результаты демонстрируют, что наш подход имеет широкое применение в сложных сферах, где точность и достоверность важны. Он может применяться не только в области радиокоммуникаций, но и в других регуляторных сферах, где необходимо использование специальных знаний. Главные преимущества RAG-пайплайна заключаются в своей мощности и точности, которые обеспечиваются высоким качеством извлечения и точной генерацией ответов. Мы также отмечаем, что данный подход может стать основой для развития будущих исследований в области генеративных моделей для регуляторных

Annotation:

We study question answering in the domain of radio regulations, a legally sensitive and high-stakes area. We propose a telecom-specific Retrieval-Augmented Generation (RAG) pipeline and introduce, to our knowledge, the first multiple-choice evaluation set for this domain, constructed from authoritative sources using automated filtering and human validation. To assess retrieval quality, we define a domain-specific retrieval metric, under which our retriever achieves approximately 97% accuracy. Be...

ID: 2509.09651v1 cs.IR, cs.AI, cs.CL, cs.LG, eess.SP

arXiv PDF

📄 Benchmarking Information Retrieval Models on Complex Retrieval Tasks

2025-09-11

Авторы:

Julian Killingback, Hamed Zamani

## Контекст Современные текстовые задачи, основанные на больших языковых моделях (LLMs), демонстрируют поразительную гибкость и мощь в решении различных сложных задач. Однако реализация эффективных моделей для рекомендаций и поиска текстовых данных еще не достигла такого уровня развития. Особенно трудно справляться с задачами, требующими обработки запросов, содержащих множество частей, ограничений и требований, выраженных на естественном языке. Эти задачи, где запросы естественного языка представляют собой несколько элементов с различными требованиями, являются естественным продолжением простых запросов, которые используются в большинстве существующих рекомендательных систем. Хотя пользователи все чаще ожидают, что системы поиска смогут обрабатывать более конкретные и затруднительные запросы, существуют недостатки в ресурсах для оценки способности моделей работать в таких сложных ситуациях. Для лучшего понимания потенциала существующих моделей и стимулирования развития новых, более мощных моделей, требуется создание широкого набора разнообразных задач, который бы отражал реальные условия применения. ## Метод Для решения указанных проблем был разработан набор задач, который отражает реальные условия применения моделей поиска. Эти задачи включают не только простые запросы, но и более сложные, содержащие несколько частей и требований в естественном языке. Для оценки способности моделей выполнять такие задачи были выбраны несколько современных моделей, которые были протестированы на различных наборах данных. Кроме того, было рассмотрено влияние различных техник улучшения запросов, в том числе использование технологий БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ для расширения и перефразирования запросов, на качество результатов поиска. Было проведено упорядочение результатов моделей с различными подходами, чтобы сравнить их способности выполнять сложные задачи поиска. ## Результаты В результате экспериментов было проанализировано качество работы различных моделей на сложных задачах поиска. Было выявлено, что даже лучшие модели способны достичь только среднего качества результатов, с nDCG@10 порядка 0.346 и R@100 около 0.587. Хотя использование технологий расширения и перефразирования запросов на основе БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ может улучшить качество результатов для менее мощных моделей, сильнейшие модели показали снижение качества во всех метриках при применении любых методов перефразирования. Таким образом, даже самые мощные модели сейчас сталкиваются с ограничениями в выполнении сложных задач поиска. ## Значимость Результаты этого ис

Annotation:

Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect que...

ID: 2509.07253v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods

2025-09-10

Авторы:

Jinrui Yang, Fan Jiang, Timothy Baldwin

#### Контекст В многоязычных системах информационного поиска (MLIR) существует важное равенство — топ-результаты поиска для запросов, имеющих одинаковый смысл, но на разных языках, должны быть одинаковыми. Несправедливость в рейтинге может привести к недоступности информации для пользователей некоторых языков. Этот мотив наполняет исследование, так как необходимо гарантировать, что системы MLIR работают справедливо и эффективно для всех лингвистических групп. Недостаточное равенство может быть вызвано тем, что тренировочные данные или алгоритмы могут придавать большую важность определенным языкам. #### Метод Для изучения проблемы с предположением о равенстве в семантике запросов были использованы два типа подходов: традиционные методы и модель DPR с нейронным ранжированием. DPR была основана на двух моделях представления языка — mBERT и XLM-R. Эти модели были обучены на 100 языках. Для измерения равенства использовался метрический подход, который сравнивал рейтинги важных документов в зависимости от используемого языка. Была представлена новая функция потерь LaKDA, которая стремилась уменьшить неравенство в многоязычных системах поиска. #### Результаты Проведенные эксперименты на нескольких наборах данных, включая TREC-COVID и CC-100, показали повышенную неравенственность в топ-результатах поиска в зависимости от языка. Результаты показали, что модель XLM-R превосходит mBERT в более справедливом ранжировании для некоторых языков. Однако все модели демонстрировали незначительные неравенства в своих рейтингах. Использование LaKDA позволило улучшить равенство в результатах в сравнении с базовыми моделями. #### Значимость Найденные неравенства в MLIR могут привести к недоступности ресурсов для некоторых групп языков, что является критическим в области глобальной связи и образования. Это исследование показало, что LaKDA может сделать системы MLIR более справедливыми, уменьшив степень неравенства в рейтингах. Это может привести к более честному и эффективному доступу к информации для всех языков. Будущие исследования могут сосредоточиться на расширении обучающих наборов данных и изучении других подходов к улучшению равенства в MLIR. #### Выводы Исследование подтвердило существование языковых неравенств в MLIR, исследовав способы их измерения и устранения. Результаты показали, что LaKDA является эффективным методом для улучшения равенства в MLIR. Дальнейшие исследования могут расширить понимание неравенств и развить новые стратегии для повышения справедливости в многоязычных системах поиска.

Annotation:

Language fairness in multilingual information retrieval (MLIR) systems is crucial for ensuring equitable access to information across diverse languages. This paper sheds light on the issue, based on the assumption that queries in different languages, but with identical semantics, should yield equivalent ranking lists when retrieving on the same multilingual documents. We evaluate the degree of fairness using both traditional retrieval methods, and a DPR neural ranker based on mBERT and XLM-R. Ad...

ID: 2509.06195v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

2025-09-06

Авторы:

Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman

#### Контекст Named Entity Retrieval (NER) — это важная задача в области обработки естественного языка, нацеленная на нахождение документов, содержащих упоминания основного субъекта запроса. Однако традиционные подходы требуют уточненных схем или обобщенных моделей, которые несколько ограничивают гибкость и широкую применимость. Это особенно важно в случаях, когда типы субъектов неизвестны заранее или приходят из нескольких источников. Данная работа адресует эти ограничения, предлагая новую подходящую методологию для zero-shot NER, которая может справиться с различными типами запросов без дополнительной моделирования. #### Метод Работа предлагает NER Retriever, фреймворк zero-shot для решения задачи Named Entity Retrieval. Основной идеей является использование внутренних представлений больших языковых моделей (LLMs), чтобы размечать субъекты и типы. Были использованы средние слои моделей, которые обеспечивают более тонкое типовое разделение. Для повышения точности, была употреблена лёгкая сеть проекции с контрастивным обучением, которая способствует взаимодействию типов субъектов. Это приводит к виду, который является типом-ориентированным, масштабируемым и легко интегрируемым в системы обработки естественного языка. #### Результаты Проведенные эксперименты показали, что NER Retriever показывает значимый выигрыш по сравнению с базовыми методами, в том числе с базовыми моделями, такими как BM25 и Dense Passage Retriever. Были проведены три эксперимента на разных датасетах, включая образцы с неизвестными типами, и во всех случаях NER Retriever демонстрировал выдачу результатов с более высоким точностным показателем. Это свидетельствует о потенциале этого подхода в реальных ситуациях. #### Значимость NER Retriever может быть применен в различных сферах, таких как анализ новостных материалов, клиентская поддержка и поисковые системы. В отличие от традиционных подходов, этот подход является схемой-независимым, что позволяет существенно упростить реализацию. Особенно ценно для компаний, которым необходимо гибко реагировать на изменения в типах субъектов запросов. #### Выводы В целом, NER Retriever превзошёл существующие методы в zero-shot NER. Такой подход доказывает значительный потенциал внедрения внутренних представлений LLMs для решения задач обработки естественного языка. Будущие исследования будут сосредоточены на расширении возможностей NER Retriever для более сложных датасетов и интеграции с другими моделями.

Annotation:

We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named Entity Retrieval, a variant of Named Entity Recognition (NER), where the types of interest are not provided in advance, and a user-defined type description is used to retrieve documents mentioning entities of that type. Instead of relying on fixed schemas or fine-tuned models, our method builds on internal representations of large language models (LLMs) to embed both entity mentions and user-provided open-ended type descr...

ID: 2509.04011v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 Stairway to Fairness: Connecting Group and Individual Fairness

2025-09-02

Авторы:

Theresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Falk Scholer, Christina Lioma

#### Контекст Fairness в рекомендательных системах (RS) традиционно делится на два типа: групповую и индивидуальную. Однако существуют недостатки в теоретическом понимании их взаимосвязи. Основная причина — различия в метриках и целях оценки для каждого типа. Из-за этого невозможно сравнить их прямо. Это означает, что неизвестно, насколько улучшение одного типа справедливости может повлиять на другой. Целью нашей исследовательской работы является заполнение этого пробела, определив и исследовав связь между групповой и индивидуальной справедливостью. #### Метод Наша исследовательская работа основывается на подробном анализе различных метрик, которые могут использоваться для оценки обеих типов справедливости. Мы проводили эксперименты с 8 выполнениями, используя 3 различных данные. Цель этих экспериментов — выявить связь между групповой и индивидуальной справедливостью, используя одни и те же метрики для оценки. #### Результаты Наши результаты показывают, что рекомендации, которые являются высокосправедливыми для групп, могут быть высоко несправедливыми для индивидуальных пользователей. Это новый и важный подход для практиков, которые стремятся улучшить справедливость в своих системах. Наш код доступен для ознакомления в репозитории на GitHub по адресу: `https://github.com/theresiavr/stairway-to-fairness`. #### Значимость Наши находки могут быть полезны в различных сферах, где используются рекомендательные системы, таких как электронная коммерция, социальные сети и медиа. Они позволяют практикам понять, насколько улучшение одного типа справедливости может повлиять на другой. Это позволяет значительно обогатить существующие подходы к концепции справедливости в RS. #### Выводы Мы установили, что существует значимый розни между групповой и индивидуальной справедливостью. Наши находки могут способствовать развитию новых методов, которые будут учитывать оба типа справедливости. Будущие исследования будут сосредоточены на разработке комплексных подходов, которые могут улучшить обе формы справедливости в рекомендательных системах.

Annotation:

Fairness in recommender systems (RSs) is commonly categorised into group fairness and individual fairness. However, there is no established scientific understanding of the relationship between the two fairness types, as prior work on both types has used different evaluation measures or evaluation objectives for each fairness type, thereby not allowing for a proper comparison of the two. As a result, it is currently not known how increasing one type of fairness may affect the other. To fill this ...

ID: 2508.21334v1 cs.IR, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Membership Inference Attacks on LLM-based Recommender Systems

2025-08-28

Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз

Annotation:

Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...

ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

1
2
3
4

Показано 21 - 30 из 38 записей