DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment

2509.19104v1 cs.LG, stat.ML 2025-09-25
Авторы:

Sharan Sahu, Martin T. Wells

Резюме на русском

#### Контекст Рейнфорсмент-ли́ринг с человекопомощью (RLHF) ста́ло ключевым инструменто́м для выравнива́ния бо́льших лингвисти́ческих моделе́й (LLMs) с человекоподразумева́емыми предпочти́тельностями. Одна́ко это́т подход ста́реть быстрее, чем жела́ет многообрази́е жела́ний людей и их ожида́ний от моделей. Основно́е ядро̀ проблемы заключа́ется в том, что модели́, обуча́ющиеся с испо́льзованием RLHF, часто преуспева́ют в минимизирова́нии ошибок на выборке, например, в диалогах, но при этом могу́т значи́тельно отступи́ть от ожида́ний пользователей в других сцена́риях. Этот эффект, известный как overfitting to reward misspecification, явля́ется основной проблемой в RLHF. Другой значи́мый аспект -- скорость обуче́ния. Некоторые подходы, такие как DRO-DPO, показывают замечательные результаты, но их эффективность снижа́ется на больших или громоздких данных. Здесь встает вопрос о балансе между эффективностью и точностью. Мы предлагаем DRO-REBEL, новый подход, который учитывает эти проблемы, предлагая универсальную структуру для распределенно-те́стового обуче́ния, которая обеспечива́ет скорость и точность, а также помогает избега́ть переобуче́ния и адаптироваться к разным предпочти́тельностям. #### Метод DRO-REBEL основывается на роба́стных обновле́ниях REBEL, использую́щих методы типа-p Вассерштейна, KL, и квадра́тичного χ². Модель упроща́ет решение задаче́й линейного регрессирования, избегая сложных методов типа PPO. Мы использу́ем Fenchel duality для упрощения процесса обуче́ния, что позволя́ет избежа́ть сложных составных структур и поддерживать простоту и скорость. В теореме́ модели описан новый анализ в стиле minimax-optimal, где мы доказыва́ем что DRO-REBEL подходи́т для различных классов политик и признаков, сохраняя оптимальные скорости работы. Мы также предлагаем практические алгоритмы, включа́ющие градиентное регуляри́рование (для Вассерштейна), важность взвешивания (для KL), и быстрый 1-D решение для квадратичной дивергенции (для χ²). #### Результаты Мы провели эксперименты на нескольких задачах: Emotion Alignment, ArmoRM multi-objective benchmark, и HH-Alignment. Мы показали, что DRO-REBEL обеспечива́ет значительно более высокую устойчивость к невидящим смешанным предпочти́тельностям, в том числе с большими моделями и большими объемами данных. В частности, работа с χ²-REBEL показала самые высокие показа́тели во всех экспериментах, что демонстриру́ет крайнюю эффективность этого подхода. Мы также провели работу с радиусом и концентрацией данных, чтобы проверить т

Abstract

Reinforcement learning with human feedback (RLHF) has become crucial for aligning Large Language Models (LLMs) with human intent. However, existing offline RLHF approaches suffer from overoptimization, where models overfit to reward misspecification and drift from preferred behaviors observed during training. We introduce DRO-REBEL, a unified family of robust REBEL updates with type-$p$ Wasserstein, KL, and $\chi^2$ ambiguity sets. Using Fenchel duality, each update reduces to a simple relative-reward regression, preserving scalability and avoiding PPO-style clipping or auxiliary value networks. Under standard linear-reward and log-linear policy classes with a data-coverage condition, we establish $O(n^{-1/4})$ estimation bounds with tighter constants than prior DRO-DPO approaches, and recover the minimax-optimal $O(n^{-1/2})$ rate via a localized Rademacher complexity analysis. The same analysis closes the gap for Wasserstein-DPO and KL-DPO, showing both also attain optimal parametric rates. We derive practical SGD algorithms for all three divergences: gradient regularization (Wasserstein), importance weighting (KL), and a fast 1-D dual solve ($\chi^2$). Experiments on Emotion Alignment, the large-scale ArmoRM multi-objective benchmark, and HH-Alignment demonstrate strong worst-case robustness across unseen preference mixtures, model sizes, and data scales, with $\chi^2$-REBEL showing consistently strong empirical performance. A controlled radius--coverage study validates a no-free-lunch trade-off: radii shrinking faster than empirical divergence concentration rates achieve minimax-optimal parametric rates but forfeit coverage, while coverage-guaranteeing radii incur $O(n^{-1/4})$ rates.

Ссылки и действия