DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment
2509.19104v1
cs.LG, stat.ML
2025-09-25
Авторы:
Sharan Sahu, Martin T. Wells
Резюме на русском
#### Контекст
Рейнфорсмент-ли́ринг с человекопомощью (RLHF) ста́ло ключевым инструменто́м для выравнива́ния бо́льших лингвисти́ческих моделе́й (LLMs) с человекоподразумева́емыми предпочти́тельностями. Одна́ко это́т подход ста́реть быстрее, чем жела́ет многообрази́е жела́ний людей и их ожида́ний от моделей. Основно́е ядро̀ проблемы заключа́ется в том, что модели́, обуча́ющиеся с испо́льзованием RLHF, часто преуспева́ют в минимизирова́нии ошибок на выборке, например, в диалогах, но при этом могу́т значи́тельно отступи́ть от ожида́ний пользователей в других сцена́риях. Этот эффект, известный как overfitting to reward misspecification, явля́ется основной проблемой в RLHF.
Другой значи́мый аспект -- скорость обуче́ния. Некоторые подходы, такие как DRO-DPO, показывают замечательные результаты, но их эффективность снижа́ется на больших или громоздких данных. Здесь встает вопрос о балансе между эффективностью и точностью.
Мы предлагаем DRO-REBEL, новый подход, который учитывает эти проблемы, предлагая универсальную структуру для распределенно-те́стового обуче́ния, которая обеспечива́ет скорость и точность, а также помогает избега́ть переобуче́ния и адаптироваться к разным предпочти́тельностям.
#### Метод
DRO-REBEL основывается на роба́стных обновле́ниях REBEL, использую́щих методы типа-p Вассерштейна, KL, и квадра́тичного χ². Модель упроща́ет решение задаче́й линейного регрессирования, избегая сложных методов типа PPO. Мы использу́ем Fenchel duality для упрощения процесса обуче́ния, что позволя́ет избежа́ть сложных составных структур и поддерживать простоту и скорость.
В теореме́ модели описан новый анализ в стиле minimax-optimal, где мы доказыва́ем что DRO-REBEL подходи́т для различных классов политик и признаков, сохраняя оптимальные скорости работы. Мы также предлагаем практические алгоритмы, включа́ющие градиентное регуляри́рование (для Вассерштейна), важность взвешивания (для KL), и быстрый 1-D решение для квадратичной дивергенции (для χ²).
#### Результаты
Мы провели эксперименты на нескольких задачах: Emotion Alignment, ArmoRM multi-objective benchmark, и HH-Alignment. Мы показали, что DRO-REBEL обеспечива́ет значительно более высокую устойчивость к невидящим смешанным предпочти́тельностям, в том числе с большими моделями и большими объемами данных.
В частности, работа с χ²-REBEL показала самые высокие показа́тели во всех экспериментах, что демонстриру́ет крайнюю эффективность этого подхода. Мы также провели работу с радиусом и концентрацией данных, чтобы проверить т
Abstract
Reinforcement learning with human feedback (RLHF) has become crucial for
aligning Large Language Models (LLMs) with human intent. However, existing
offline RLHF approaches suffer from overoptimization, where models overfit to
reward misspecification and drift from preferred behaviors observed during
training. We introduce DRO-REBEL, a unified family of robust REBEL updates with
type-$p$ Wasserstein, KL, and $\chi^2$ ambiguity sets. Using Fenchel duality,
each update reduces to a simple relative-reward regression, preserving
scalability and avoiding PPO-style clipping or auxiliary value networks. Under
standard linear-reward and log-linear policy classes with a data-coverage
condition, we establish $O(n^{-1/4})$ estimation bounds with tighter constants
than prior DRO-DPO approaches, and recover the minimax-optimal $O(n^{-1/2})$
rate via a localized Rademacher complexity analysis. The same analysis closes
the gap for Wasserstein-DPO and KL-DPO, showing both also attain optimal
parametric rates. We derive practical SGD algorithms for all three divergences:
gradient regularization (Wasserstein), importance weighting (KL), and a fast
1-D dual solve ($\chi^2$). Experiments on Emotion Alignment, the large-scale
ArmoRM multi-objective benchmark, and HH-Alignment demonstrate strong
worst-case robustness across unseen preference mixtures, model sizes, and data
scales, with $\chi^2$-REBEL showing consistently strong empirical performance.
A controlled radius--coverage study validates a no-free-lunch trade-off: radii
shrinking faster than empirical divergence concentration rates achieve
minimax-optimal parametric rates but forfeit coverage, while
coverage-guaranteeing radii incur $O(n^{-1/4})$ rates.
Ссылки и действия
Дополнительные ресурсы: