PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization

2508.07342v1 cs.IR, cs.CL 2025-08-13
Авторы:

Kepu Zhang, Teng Shi, Weijie Yu, Jun Xu

Резюме на русском

## Контекст Персонализированная ретейрированная генерация (Personalized Retrieval-Augmented Generation, RAG) представляет собой процесс создания ответов, которые хорошо соответствуют пользовательским предпочтениям, через интеграцию входного запроса с индивидуальными профилями пользователей, полученными из базы данных. Эта технология найдет применение в различных сферах, включая искусственный интеллект для обслуживания клиентов, социальные сети и интеллектуальные помощники. Существующие подходы в основном сосредоточены на улучшении механизмов поиска информации, в которых большие языковые модели (LLMs) неявно интегрируют полученную информацию с запросом. Однако такие подходы чувствительны к качеству результатов поиска и могут привести к ответам, не соответствующим ожиданиям пользователей. Необходимо разработать метод, который бы учитывал эти проблемы и обеспечивал более точное соответствие ответов пользовательским предпочтениям. ## Метод Предлагаемый подход, названный PrLM (Personalized Reasoning Large Model), является рамочной методологией, основанной на усовершенствованном техническом подходе. Он использует LLM для эксплицитного разума об информации, полученной в результате поиска. Модель оптимизируется с использованием решающего метода, основанного на принципах контрастирования, где генерируемые ответы сравниваются с идеальными ответами, обученными на данных пользовательских ответов. Это позволяет модели глубоко понять пользовательские предпочтения без необходимости иметь заранее подготовленный набор размеченных примеров. Такая архитектура позволяет применять модель в различных сценариях, где требуется персонализация. ## Результаты Проведены эксперименты на трех различных датасетах, подразумевающих персонализированную текстовую генерацию. Результаты показали, что PrLM превосходит другие подходы в метриках качества генерируемого текста, таких как BLEU, ROUGE и METEOR. Особое внимание уделено сравнению с конкурентными методами в ситуациях, когда число профилей пользователей или алгоритмов поиска меняется. Результаты показали, что PrLM остается стабилен и эффективен, независимо от количества профилей или их качества. Это значит, что модель не только выдает высококачественные ответы, но и подходит для применения в реальных условиях. ## Значимость Предложенный подход имеет широкие возможности для применения в различных областях. Например, он может использоваться для создания более индивидуальных ответов в системах обслуживания клиентов, диалоговых системах, создания личных рекомендаций. Этот подход отличается своей гибкостью и высоким уровнем точности, что делает его привлекательным

Abstract

Personalized retrieval-augmented generation (RAG) aims to produce user-tailored responses by incorporating retrieved user profiles alongside the input query. Existing methods primarily focus on improving retrieval and rely on large language models (LLMs) to implicitly integrate the retrieved context with the query. However, such models are often sensitive to retrieval quality and may generate responses that are misaligned with user preferences. To address this limitation, we propose PrLM, a reinforcement learning framework that trains LLMs to explicitly reason over retrieved user profiles. Guided by a contrastively trained personalization reward model, PrLM effectively learns from user responses without requiring annotated reasoning paths. Experiments on three personalized text generation datasets show that PrLM outperforms existing methods and remains robust across varying numbers of retrieved profiles and different retrievers.

Ссылки и действия