PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization
2508.07342v1
cs.IR, cs.CL
2025-08-13
Авторы:
Kepu Zhang, Teng Shi, Weijie Yu, Jun Xu
Резюме на русском
## Контекст
Персонализированная ретейрированная генерация (Personalized Retrieval-Augmented Generation, RAG) представляет собой процесс создания ответов, которые хорошо соответствуют пользовательским предпочтениям, через интеграцию входного запроса с индивидуальными профилями пользователей, полученными из базы данных. Эта технология найдет применение в различных сферах, включая искусственный интеллект для обслуживания клиентов, социальные сети и интеллектуальные помощники. Существующие подходы в основном сосредоточены на улучшении механизмов поиска информации, в которых большие языковые модели (LLMs) неявно интегрируют полученную информацию с запросом. Однако такие подходы чувствительны к качеству результатов поиска и могут привести к ответам, не соответствующим ожиданиям пользователей. Необходимо разработать метод, который бы учитывал эти проблемы и обеспечивал более точное соответствие ответов пользовательским предпочтениям.
## Метод
Предлагаемый подход, названный PrLM (Personalized Reasoning Large Model), является рамочной методологией, основанной на усовершенствованном техническом подходе. Он использует LLM для эксплицитного разума об информации, полученной в результате поиска. Модель оптимизируется с использованием решающего метода, основанного на принципах контрастирования, где генерируемые ответы сравниваются с идеальными ответами, обученными на данных пользовательских ответов. Это позволяет модели глубоко понять пользовательские предпочтения без необходимости иметь заранее подготовленный набор размеченных примеров. Такая архитектура позволяет применять модель в различных сценариях, где требуется персонализация.
## Результаты
Проведены эксперименты на трех различных датасетах, подразумевающих персонализированную текстовую генерацию. Результаты показали, что PrLM превосходит другие подходы в метриках качества генерируемого текста, таких как BLEU, ROUGE и METEOR. Особое внимание уделено сравнению с конкурентными методами в ситуациях, когда число профилей пользователей или алгоритмов поиска меняется. Результаты показали, что PrLM остается стабилен и эффективен, независимо от количества профилей или их качества. Это значит, что модель не только выдает высококачественные ответы, но и подходит для применения в реальных условиях.
## Значимость
Предложенный подход имеет широкие возможности для применения в различных областях. Например, он может использоваться для создания более индивидуальных ответов в системах обслуживания клиентов, диалоговых системах, создания личных рекомендаций. Этот подход отличается своей гибкостью и высоким уровнем точности, что делает его привлекательным
Abstract
Personalized retrieval-augmented generation (RAG) aims to produce
user-tailored responses by incorporating retrieved user profiles alongside the
input query. Existing methods primarily focus on improving retrieval and rely
on large language models (LLMs) to implicitly integrate the retrieved context
with the query. However, such models are often sensitive to retrieval quality
and may generate responses that are misaligned with user preferences. To
address this limitation, we propose PrLM, a reinforcement learning framework
that trains LLMs to explicitly reason over retrieved user profiles. Guided by a
contrastively trained personalization reward model, PrLM effectively learns
from user responses without requiring annotated reasoning paths. Experiments on
three personalized text generation datasets show that PrLM outperforms existing
methods and remains robust across varying numbers of retrieved profiles and
different retrievers.
Ссылки и действия
Дополнительные ресурсы: