The Era of Real-World Human Interaction: RL from User Conversations
2509.25137v1
cs.AI, cs.CL, cs.LG
2025-10-01
Авторы:
Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
Резюме на русском
## Контекст
Контекст этого исследования заключается в оптимизации технологий глубокого обучения, которые используются для общения с человеком в реальном времени. На сегодняшний день, большинство моделей обучаются с помощью предварительно подготовленных данных, где человек оценивает или корректирует поведение модели. Однако, этот подход имеет ряд ограничений, включая невозможность адаптироваться в реальном времени к отзывам пользователя. Задача исследования — рассмотреть возможность обучения моделей непосредственно из потока реальных пользовательских интеракций, чтобы улучшить их личностную принадлежность и возможность выполнения инструкций.
## Метод
Исследователи предлагают подход, называемый Reinforcement Learning from Human Interaction (RLHI). Основная идея заключается в том, что модель должна выучиваться непосредственно из пользовательских диалогов, используя навыки глубокого обучения, основанных на подкреплении (Reinforcement Learning). Метод включает две основные компоненты: (1) **RLHI с User-Guided Rewrites**, который использует пользовательские ответы для редактирования неудовлетворительных модельных ответов, и (2) **RLHI с User-Based Rewards**, который учитывает историю взаимодействия пользователя для оптимизации модели. Эти методики связывают длительную индивидуальность пользователя (персона) с его предпочтениями на уровне отдельных ответов. Эксперименты проводятся с использованием данных WildChat, в которых собраны многочисленные диалоги пользователей.
## Результаты
Проведенные эксперименты показали, что оба варианта RLHI показали значительное улучшение в параметрах personalization (персональности ответов) и instruction-following (выполнение инструкций). Также, оба метода показали неплохой результат на решении различных логических задач (reasoning benchmarks). В частности, RLHI с User-Based Rewards показал свою эффективность в том, как модель может изучить индивидуальные предпочтения пользователя на основе его истории взаимодействий. Эти результаты зарекомендовали данные методики как сильные альтернативы существующим подходам, основанным на предварительно подготовленном гуманском знании.
## Значимость
Результаты этого исследования могут иметь значительное значение в различных областях. Во-первых, это позволит создавать модели, которые будут более естественно взаимодействовать с пользователями, учитывая их индивидуальные особенности и привычки. Во-вторых, это демонстрирует возможность научить модели непосредственно из реальных диалогов, что может упростить процесс их обучения и улучшить их качество. В-третьих, это может оказаться критически важным для создания систем, которые могут быть использованы в различных сферах, включая образовательные технологии, помощь в решении задач, и даже в здравоохранении.
## Выводы
В итоге
Abstract
We posit that to achieve continual model improvement and multifaceted
alignment, future models must learn from natural human interaction. Current
conversational models are aligned using pre-annotated, expert-generated human
feedback. In this work, we introduce Reinforcement Learning from Human
Interaction (RLHI), a paradigm that learns directly from in-the-wild user
conversations. We develop two complementary methods: (1) RLHI with User-Guided
Rewrites, which revises unsatisfactory model outputs based on users'
natural-language follow-up responses, (2) RLHI with User-Based Rewards, which
learns via a reward model conditioned on knowledge of the user's long-term
interaction history (termed persona). Together, these methods link long-term
user personas to turn-level preferences via persona-conditioned preference
optimization. Trained on conversations derived from WildChat, both RLHI
variants outperform strong baselines in personalization and
instruction-following, and similar feedback enhances performance on reasoning
benchmarks. These results suggest organic human interaction offers scalable,
effective supervision for personalized alignment.
Ссылки и действия
Дополнительные ресурсы: