📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 KL-Regularised Q-Learning: A Token-level Action-Value perspective on Online RLHF

2025-08-27

Авторы:

Jason R Brown, Lennie Wells, Edward James Young, Sergio Bacallado

#### Контекст Лингвистические модели, обученные с помощью реинфорсмента, широко применяются в задачах генерации текста, таких как суммирование или диалоговые системы. Одна из основных проблем в данной области — найти эффективные способы обучения моделей с использованием гибкого соотношения качества текста и контроля языка. Одним из популярных подходов является Language Model Reinforcement Learning from Human Feedback (LM-RLHF), который использует знания пользователей для оптимизации моделей. Однако существующие методы, такие как Proximal Policy Optimisation (PPO), страдают от сильной зависимости от интуиции и недостаточной строгости в оптимизации. Таким образом, необходимо развитие методик, которые обеспечат более системный и научно обоснованный подход к решению этой задачи. #### Метод Мы предлагаем новую методику для обучения моделей в контексте LM-RLHF, названную **KL-Regularised Q-Learning (KLQ)**. Метод основывается на актёр-критике архитектуре, где действия определяются как значения лексем, а критик оценивает точность этих действий с использованием квантильного регуляризатора KL. Наш подход отличается от PPO тем, что использует специфическую мотивацию на основе контроля языка, а не просто градиентный подход. Базовый механизм KLQ включает в себя итеративный алгоритм оптимизации, который учитывает множество возможных действий и оценивает их с помощью модели языка. Мы также проводим анализ градиентов и проверяем сходимость наших решений. #### Результаты Мы проводили эксперименты на двух ключевых задачах: суммировании текста и одноразовой диалоге. Для этого использовались две модели языка с различным объемом памяти. Мы сравнили KLQ с PPO по метрикам LM-RLHF и оценкам LLM-as-a-judge. Результаты показали, что KLQ демонстрирует эквивалентную производительность по основной метрике нормализованного дохода, но выдаёт значительно более высокую вероятность победы на LLM-as-a-judge, что указывает на её выигрыш в ситуациях, где необходим высокий уровень контроля языка. #### Значимость Наш метод имеет широкие возможности применения в области генерации текста и моделей языка. В отличие от PPO, KLQ является более строго обоснованным с точки зрения математической теории, что может привести к улучшению понимания и контроля моделей. Благодаря выигрышу в LLM-as-a-judge, KLQ может быть полезным для тех ситуаций, когда требуется высокое качество текста с высоким уровнем контроля языка. Предполагается, что данный подход может быть расширен для решения других задач, в которых необходимо использовать гибкое регулирование языка. #### Выводы Мы представили новый подход к решению задачи LM-RLHF, основанный на методе KL

Annotation:

Proximal Policy Optimisation (PPO) is an established and effective policy gradient algorithm used for Language Model Reinforcement Learning from Human Feedback (LM-RLHF). PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner. In this paper, we develop a a new action-value RL method for the LM-RLHF setting, KL-regularised Q-Learning (KLQ). We then show that our method is equivalent to a version of PPO in a certain...

ID: 2508.17000v1 cs.CL, cs.LG, 68T07, I.2.6; I.2.8

arXiv PDF