Learning from Natural Language Feedback for Personalized Question Answering

2508.10695v1 cs.CL, cs.AI, cs.IR 2025-08-16
Авторы:

Alireza Salemi, Hamed Zamani

Резюме на русском

#### Контекст Personalization является ключевым фактором, повышающим эффективность и удобство использования языковых технологий, особенно в задачах поиска информации, таких как вопрос-ответ. Однако, текущие подходы к персонализации больших языковых моделей (LLM) часто опираются на технологию получения информации (RAG), комбинированную с разностным обучением с подкреплением (RL) и скалярными сигналами обратной связи. Это может приводить к неэффективности, так как скалярные сигналы обратной связи могут быть слишком слабыми и неинформативными, что ограничивает качество и скорость обучения. Для решения этой проблемы мы предлагаем VAC, новую модель, которая использует богатый вид обратной связи в виде естественного языка (NLF), сгенерированного в зависимости от профилей пользователей и характера вопроса. Эта система не только улучшает качество ответов, но и обеспечивает системе более наглядную и полезную обратную связь для дальнейшего совершенствования. #### Метод Мы предлагаем VAC (Вопрос, Ответ, Наставление), новую модель, которая использует естественный язык в качестве сигнала обратной связи вместо скалярных показателей. Методология включает два основных этапа: генерацию наставления в виде естественного языка с учетом профиля пользователя и вопроса, а затем оптимизацию политики ответов на основе этого наставления. Мы используем RL для обучения модели политики, используя наставление в качестве награды. Такой подход позволяет модели более точно корректировать свои ответы, учитывая контекст и потребности пользователя. Эта модель может быть использована в различных сценариях, включая личное общение и техническую поддержку. #### Результаты Мы провели эксперименты на LaMP-QA, бенчмарк, состоящем из трех различных доменов. Результаты показали, что вариант с наставлением в виде естественного языка (NLF) показал значительные улучшения по сравнению с традиционными методами. Мы также провели людские оценки, которые подтвердили, что ответы, сформированные на основе NLF, являются более качественными и отвечают лучше потребностям пользователей. Это демонстрирует, что наш подход представляет собой эффективное решение для персонализированного вопроса-ответа. #### Значимость Наш подход может быть применен в различных областях, таких как личные помощники, техническая поддержка и системы бронирования. Он предлагает существенные преимущества перед существующими методами, включая более точную персонализацию и более качественные ответы. Мы считаем, что наш подход может существенно повлиять на область личных языковых моделей, улучш

Abstract

Personalization is crucial for enhancing both the effectiveness and user satisfaction of language technologies, particularly in information-seeking tasks like question answering. Current approaches for personalizing large language models (LLMs) often rely on retrieval-augmented generation (RAG), followed by reinforcement learning with scalar reward signals to teach models how to use retrieved personal context. We believe that these scalar rewards sometimes provide weak, non-instructive feedback, limiting learning efficiency and personalization quality. We introduce VAC, a novel framework for personalized response generation that replaces scalar rewards with natural language feedback (NLF) that are generated conditioned on the user profiles and the question narratives. NLF serves as a rich and actionable supervision signal, allowing the policy model to iteratively refine its outputs and internalize effective personalization strategies. Training alternates between optimizing the feedback model and fine-tuning the policy model on the improved responses, resulting in a policy model that no longer requires feedback at inference. Evaluation on the LaMP-QA benchmark that consists of three diverse domains demonstrates consistent and significant improvements over the state-of-the-art results. Human evaluations further confirm the superior quality of the generated responses. These results demonstrate that NLF provides more effective signals for optimizing personalized question answering.

Ссылки и действия