Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
2509.11452v1
cs.LG, cs.CL
2025-09-17
Авторы:
Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
Резюме на русском
#### Контекст
Одной из ключевых задач в многоцелевом управлении поведением (Multi-Objective Reinforcement Learning, MORL) является эффективное решение задач, где каждая цель имеет различные веса в зависимости от текущей ситуации. В области онлайн-подбора предпочтений (Online Preference Alignment) для больших языковых моделей необходимо создать модели, которые могут адаптироваться в реальном времени к изменению предпочтений пользователей. Традиционные подходы, основанные на линейной нормировке статических весов, не могут принять во внимание многие нелинейные и неконвексные зависимости между целями. Это приводит к подбору неоптимальных решений. Наша мотивация заключается в разработке адаптивных методов, которые могут эффективно и гибко решать эти проблемы, учитывая комплексность и неопределенность реальных сценариев.
#### Метод
Мы предлагаем динамическую систему весовой нормировки (Dynamic Reward Weighting), которая адаптирует веса целей во время процесса обучения. Метод основывается на двух основных подходах: (1) **гиперобъем-ориентированная регулировка весов** и (2) **градиентно-ориентированная оптимизация весов**. В первом подходе, веса устанавливаются на основе метрики гиперобъема, чтобы эффективно охватывать границы возможных решений в многомерном пространстве целей. Во втором подходе, веса уточняются путем оптимизации градиентов, что обеспечивает более точное адаптирование к динамическим изменениям целей. Наша архитектура включает модель с параметрами, которая напрямую взаимодействует с окружающим миром, собирает статистику и анализирует поведение в зависимости от текущих предпочтений.
#### Результаты
Мы провели ряд экспериментов на математических рассуждениях с использованием различных моделей языковых моделей, включая GRPO, REINFORCE и RLOO. Наши результаты показывают, что динамическая нормировка весов позволяет эффективно охватывать границы решений (Pareto fronts) с меньшим количеством обучения по сравнению с статическими линейными схемами весов. Мы проверили нашу модель на сценариях, требующих быстрого адаптирования к изменению предпочтений, и показали, что она превосходит другие методы в зоне неоптимальности, когда цели меняются динамически.
#### Значимость
Наш подход имеет широкую сферу применения, включая задачи онлайн-подбора предпочтений в технологиях глубокого обучения, моделировании поведения в играх, системах экономического моделирования и даже реальных приложениях, таких как адаптивные интерфейсы. Наш метод предлагает следующие преимущества: (1) эффективность, (2) гибкость в решении нелинейных задач, (3) уменьшение врем
Abstract
Prior works in multi-objective reinforcement learning typically use linear
reward scalarization with fixed weights, which provably fail to capture
non-convex Pareto fronts and thus yield suboptimal results. This limitation
becomes especially critical in online preference alignment for large language
models. Here, stochastic trajectories generated by parameterized policies
create highly non-linear and non-convex mappings from parameters to objectives
that no single static weighting scheme can find optimal trade-offs. We address
this limitation by introducing dynamic reward weighting, which adaptively
adjusts reward weights during the online reinforcement learning process. Unlike
existing approaches that rely on fixed-weight interpolation, our dynamic
weighting continuously balances and prioritizes objectives in training,
facilitating effective exploration of Pareto fronts in objective space. We
introduce two approaches of increasing sophistication and generalizability: (1)
hypervolume-guided weight adaptation and (2) gradient-based weight
optimization, offering a versatile toolkit for online multi-objective
alignment. Our extensive experiments demonstrate their compatibility with
commonly used online reinforcement learning algorithms (including GRPO,
REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning
datasets, and applicability to different model families, consistently achieving
Pareto dominant solutions with fewer training steps than fixed-weight linear
scalarization baselines.
Ссылки и действия
Дополнительные ресурсы: