The Era of Real-World Human Interaction: RL from User Conversations

2509.25137v1 cs.AI, cs.CL, cs.LG 2025-10-01
Авторы:

Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston

Резюме на русском

## Контекст Контекст этого исследования заключается в оптимизации технологий глубокого обучения, которые используются для общения с человеком в реальном времени. На сегодняшний день, большинство моделей обучаются с помощью предварительно подготовленных данных, где человек оценивает или корректирует поведение модели. Однако, этот подход имеет ряд ограничений, включая невозможность адаптироваться в реальном времени к отзывам пользователя. Задача исследования — рассмотреть возможность обучения моделей непосредственно из потока реальных пользовательских интеракций, чтобы улучшить их личностную принадлежность и возможность выполнения инструкций. ## Метод Исследователи предлагают подход, называемый Reinforcement Learning from Human Interaction (RLHI). Основная идея заключается в том, что модель должна выучиваться непосредственно из пользовательских диалогов, используя навыки глубокого обучения, основанных на подкреплении (Reinforcement Learning). Метод включает две основные компоненты: (1) **RLHI с User-Guided Rewrites**, который использует пользовательские ответы для редактирования неудовлетворительных модельных ответов, и (2) **RLHI с User-Based Rewards**, который учитывает историю взаимодействия пользователя для оптимизации модели. Эти методики связывают длительную индивидуальность пользователя (персона) с его предпочтениями на уровне отдельных ответов. Эксперименты проводятся с использованием данных WildChat, в которых собраны многочисленные диалоги пользователей. ## Результаты Проведенные эксперименты показали, что оба варианта RLHI показали значительное улучшение в параметрах personalization (персональности ответов) и instruction-following (выполнение инструкций). Также, оба метода показали неплохой результат на решении различных логических задач (reasoning benchmarks). В частности, RLHI с User-Based Rewards показал свою эффективность в том, как модель может изучить индивидуальные предпочтения пользователя на основе его истории взаимодействий. Эти результаты зарекомендовали данные методики как сильные альтернативы существующим подходам, основанным на предварительно подготовленном гуманском знании. ## Значимость Результаты этого исследования могут иметь значительное значение в различных областях. Во-первых, это позволит создавать модели, которые будут более естественно взаимодействовать с пользователями, учитывая их индивидуальные особенности и привычки. Во-вторых, это демонстрирует возможность научить модели непосредственно из реальных диалогов, что может упростить процесс их обучения и улучшить их качество. В-третьих, это может оказаться критически важным для создания систем, которые могут быть использованы в различных сферах, включая образовательные технологии, помощь в решении задач, и даже в здравоохранении. ## Выводы В итоге

Abstract

We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.

Ссылки и действия