SharedRep-RLHF: A Shared Representation Approach to RLHF with Diverse Preferences
2509.03672v1
cs.LG, stat.ML
2025-09-06
Авторы:
Arpan Mukherjee, Marcello Bullo, Deniz Gündüz
Резюме на русском
## Контекст
Рефинирование тренировки роботов на основе улучшенной обратной связи с человеком (RLHF) стало ключевым инструментом для обучения моделей поведения в различных приложениях. Однако, традиционные методы, такие как формирование общей модели предпочтений на основе всех отзывов (Uniform-reward RLHF), не учитывают различия в предпочтениях разных групп пользователей. Это может привести к несправедливости и неэффективности, так как модель может нести склонность к предпочтениям более значительных подгрупп. Чтобы устранить эту проблему, MaxMin-RLHF был предложен, который выделяет группы пользователей и оптимизирует для самой неудовлетворенной группы. Однако, этот подход оказывается неэффективен для малогокатегориальных или малочисленных подгрупп. SharedRep-RLHF отправляется в путь, чтобы решить эти недостатки, объединяя принципы общего и группового подхода.
## Метод
SharedRep-RLHF предлагает новую методологию, которая использует общие свойства в поведении пользователей, а не отдельные модели для каждой группы. Это достигается за счет обучения модели, которая учитывает общие тренды в фидбэке от разных групп, а не обособляет их. Технически, SharedRep-RLHF использует архитектуру, состоящую из нескольких слоев, объединяющих общие признаки в разных стадиях обучения. Это позволяет модели быть более устойчивой к малочисленным группам и более точно представлять их предпочтения. Базовая идея заключается в том, что общие признаки в данных пользователей могут быть более эффективно использованы, чем разделение на отдельные модели.
## Результаты
Эксперименты проводились на различных естественно-языковых задачах, включая синтез речи и понимание текста. Обучение производилось с использованием различных групп пользователей, как более крупных, так и малочисленных. Результаты показали, что SharedRep-RLHF превосходит MaxMin-RLHF в ситуациях, когда малокатегориальные группы являются менее удовлетворенными. В среднем, SharedRep-RLHF повысил "win rate" до 20%, показывая более эффективное учету разнообразия в пользовательских предпочтениях. Это улучшение достигается благодаря уменьшению влияния малокатегориальных групп на общую модель предпочтений и более точном представлении общих границ предпочтений.
## Значимость
SharedRep-RLHF может быть применен в различных областях, где необходимо учитывать разнообразие предпочтений, таких как создание диалоговых систем, сервисы поддержки и рекомендательные системы. Он обеспечивает более справедливое и эффективное обучение, уменьшая разрыв между разными подгруппами. Это может привести к менее склонности к несправедливость, повысить до
Abstract
Uniform-reward reinforcement learning from human feedback (RLHF), which
trains a single reward model to represent the preferences of all annotators,
fails to capture the diversity of opinions across sub-populations,
inadvertently favoring dominant groups. The state-of-the-art, MaxMin-RLHF,
addresses this by learning group-specific reward models, and by optimizing for
the group receiving the minimum reward, thereby promoting fairness. However, we
identify that a key limitation of MaxMin-RLHF is its poor performance when the
minimum-reward group is a minority. To mitigate this drawback, we introduce a
novel framework, termed {\em SharedRep-RLHF}. At its core, SharedRep-RLHF
learns and leverages {\em shared traits} in annotations among various groups,
in contrast to learning separate reward models across groups. We first show
that MaxMin-RLHF is provably suboptimal in learning shared traits, and then
quantify the sample complexity of SharedRep-RLHF. Experiments across diverse
natural language tasks showcase the effectiveness of SharedRep-RLHF compared to
MaxMin-RLHF with a gain of up to 20% in win rate.
Ссылки и действия
Дополнительные ресурсы: