📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Jason R Brown, Lennie Wells, Edward James Young, Sergio Bacallado
#### Контекст
Лингвистические модели, обученные с помощью реинфорсмента, широко применяются в задачах генерации текста, таких как суммирование или диалоговые системы. Одна из основных проблем в данной области — найти эффективные способы обучения моделей с использованием гибкого соотношения качества текста и контроля языка. Одним из популярных подходов является Language Model Reinforcement Learning from Human Feedback (LM-RLHF), который использует знания пользователей для оптимизации моделей. Однако существующие методы, такие как Proximal Policy Optimisation (PPO), страдают от сильной зависимости от интуиции и недостаточной строгости в оптимизации. Таким образом, необходимо развитие методик, которые обеспечат более системный и научно обоснованный подход к решению этой задачи.
#### Метод
Мы предлагаем новую методику для обучения моделей в контексте LM-RLHF, названную **KL-Regularised Q-Learning (KLQ)**. Метод основывается на актёр-критике архитектуре, где действия определяются как значения лексем, а критик оценивает точность этих действий с использованием квантильного регуляризатора KL. Наш подход отличается от PPO тем, что использует специфическую мотивацию на основе контроля языка, а не просто градиентный подход. Базовый механизм KLQ включает в себя итеративный алгоритм оптимизации, который учитывает множество возможных действий и оценивает их с помощью модели языка. Мы также проводим анализ градиентов и проверяем сходимость наших решений.
#### Результаты
Мы проводили эксперименты на двух ключевых задачах: суммировании текста и одноразовой диалоге. Для этого использовались две модели языка с различным объемом памяти. Мы сравнили KLQ с PPO по метрикам LM-RLHF и оценкам LLM-as-a-judge. Результаты показали, что KLQ демонстрирует эквивалентную производительность по основной метрике нормализованного дохода, но выдаёт значительно более высокую вероятность победы на LLM-as-a-judge, что указывает на её выигрыш в ситуациях, где необходим высокий уровень контроля языка.
#### Значимость
Наш метод имеет широкие возможности применения в области генерации текста и моделей языка. В отличие от PPO, KLQ является более строго обоснованным с точки зрения математической теории, что может привести к улучшению понимания и контроля моделей. Благодаря выигрышу в LLM-as-a-judge, KLQ может быть полезным для тех ситуаций, когда требуется высокое качество текста с высоким уровнем контроля языка. Предполагается, что данный подход может быть расширен для решения других задач, в которых необходимо использовать гибкое регулирование языка.
#### Выводы
Мы представили новый подход к решению задачи LM-RLHF, основанный на методе KL
Annotation:
Proximal Policy Optimisation (PPO) is an established and effective policy
gradient algorithm used for Language Model Reinforcement Learning from Human
Feedback (LM-RLHF). PPO performs well empirically but has a heuristic
motivation and handles the KL-divergence constraint used in LM-RLHF in an
ad-hoc manner. In this paper, we develop a a new action-value RL method for the
LM-RLHF setting, KL-regularised Q-Learning (KLQ). We then show that our method
is equivalent to a version of PPO in a certain...