Learning from Natural Language Feedback for Personalized Question Answering
2508.10695v1
cs.CL, cs.AI, cs.IR
2025-08-16
Авторы:
Alireza Salemi, Hamed Zamani
Резюме на русском
#### Контекст
Personalization является ключевым фактором, повышающим эффективность и удобство использования языковых технологий, особенно в задачах поиска информации, таких как вопрос-ответ. Однако, текущие подходы к персонализации больших языковых моделей (LLM) часто опираются на технологию получения информации (RAG), комбинированную с разностным обучением с подкреплением (RL) и скалярными сигналами обратной связи. Это может приводить к неэффективности, так как скалярные сигналы обратной связи могут быть слишком слабыми и неинформативными, что ограничивает качество и скорость обучения. Для решения этой проблемы мы предлагаем VAC, новую модель, которая использует богатый вид обратной связи в виде естественного языка (NLF), сгенерированного в зависимости от профилей пользователей и характера вопроса. Эта система не только улучшает качество ответов, но и обеспечивает системе более наглядную и полезную обратную связь для дальнейшего совершенствования.
#### Метод
Мы предлагаем VAC (Вопрос, Ответ, Наставление), новую модель, которая использует естественный язык в качестве сигнала обратной связи вместо скалярных показателей. Методология включает два основных этапа: генерацию наставления в виде естественного языка с учетом профиля пользователя и вопроса, а затем оптимизацию политики ответов на основе этого наставления. Мы используем RL для обучения модели политики, используя наставление в качестве награды. Такой подход позволяет модели более точно корректировать свои ответы, учитывая контекст и потребности пользователя. Эта модель может быть использована в различных сценариях, включая личное общение и техническую поддержку.
#### Результаты
Мы провели эксперименты на LaMP-QA, бенчмарк, состоящем из трех различных доменов. Результаты показали, что вариант с наставлением в виде естественного языка (NLF) показал значительные улучшения по сравнению с традиционными методами. Мы также провели людские оценки, которые подтвердили, что ответы, сформированные на основе NLF, являются более качественными и отвечают лучше потребностям пользователей. Это демонстрирует, что наш подход представляет собой эффективное решение для персонализированного вопроса-ответа.
#### Значимость
Наш подход может быть применен в различных областях, таких как личные помощники, техническая поддержка и системы бронирования. Он предлагает существенные преимущества перед существующими методами, включая более точную персонализацию и более качественные ответы. Мы считаем, что наш подход может существенно повлиять на область личных языковых моделей, улучш
Abstract
Personalization is crucial for enhancing both the effectiveness and user
satisfaction of language technologies, particularly in information-seeking
tasks like question answering. Current approaches for personalizing large
language models (LLMs) often rely on retrieval-augmented generation (RAG),
followed by reinforcement learning with scalar reward signals to teach models
how to use retrieved personal context. We believe that these scalar rewards
sometimes provide weak, non-instructive feedback, limiting learning efficiency
and personalization quality. We introduce VAC, a novel framework for
personalized response generation that replaces scalar rewards with natural
language feedback (NLF) that are generated conditioned on the user profiles and
the question narratives. NLF serves as a rich and actionable supervision
signal, allowing the policy model to iteratively refine its outputs and
internalize effective personalization strategies. Training alternates between
optimizing the feedback model and fine-tuning the policy model on the improved
responses, resulting in a policy model that no longer requires feedback at
inference. Evaluation on the LaMP-QA benchmark that consists of three diverse
domains demonstrates consistent and significant improvements over the
state-of-the-art results. Human evaluations further confirm the superior
quality of the generated responses. These results demonstrate that NLF provides
more effective signals for optimizing personalized question answering.
Ссылки и действия
Дополнительные ресурсы: