RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing
2508.18642v2
cs.AI, cs.CL
2025-08-29
Авторы:
Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi
Резюме на русском
## Контекст
Компьютерные модели естественного языка широко используются в задачах создания творческих текстов. Однако творческое письмо требует достижения оптимального баланса между субъективными качествами текста (такими как выразительность, литературность и эмоциональная нагрузка) и объективными ограничениями (например, форматными требованиями и ограничениями по количеству слов). Существующие методы сталкиваются с проблемой решения этой задачи: сингулярные стратегии вознаграждения не могут улучшить как субъективные, так и объективные аспекты, в то время как методы с множественными весами не способны адаптироваться к различным сценариям. Данная работа предлагает новый подход, способный решать эту проблему.
## Метод
Метод Reinforcement Learning with Mixed Rewards (RLMR) основывается на уникальном подходе к смешанных наград. Он использует динамическую систему вознаграждений, включающую две компоненты: множественное вознаграждение от модели, оценивающей качество текста, и модель, проверяющую соблюдение ограничений. Динамический коэффициент веса, присваиваемый ограничениям, изменяется в зависимости от качества текста в выбранных группах. Главная инновация заключается в том, что если текст нарушает ограничения, он получает отрицательное вознаграждение в RL-обучении, что призвано подчеркнуть его недостатки.
## Результаты
Исследования проводились на моделях различных размеров (от 8 миллиардов до 72 миллиардов параметров). Мы также разработали реальный бенчмарк WriteEval для оценки качества текста. Результаты показали, что RLMR улучшает возможность соблюдения инструкций (IFEval) с 83,36% до 86,65% и повышает качество текста, достигнув на WriteEval 72,75% побед в парном сравнении с экспертами.
## Значимость
Метод RLMR может быть применен в различных сферах, где необходимо создание сочетания литературного стиля и соблюдения формальных требований. Он предлагает значительные преимущества в области творческого письма, объединяя высокую точность в выполнении заданий и гибкость в адаптации к различным сценариям.
## Выводы
RLMR представляет собой первый подход, который успешно смеживает субъективные и объективные аспекты в творческом письме. Дальнейшие исследования будут ориентированы на улучшение динамического весового системы и расширение применения метода к другим типам творчества.
Abstract
Large language models are extensively utilized in creative writing
applications. Creative writing requires a balance between subjective writing
quality (e.g., literariness and emotional expression) and objective constraint
following (e.g., format requirements and word limits). Existing methods find it
difficult to balance these two aspects: single reward strategies fail to
improve both abilities simultaneously, while fixed-weight mixed-reward methods
lack the ability to adapt to different writing scenarios. To address this
problem, we propose Reinforcement Learning with Mixed Rewards (RLMR), utilizing
a dynamically mixed reward system from a writing reward model evaluating
subjective writing quality and a constraint verification model assessing
objective constraint following. The constraint following reward weight is
adjusted dynamically according to the writing quality within sampled groups,
ensuring that samples violating constraints get negative advantage in GRPO and
thus penalized during training, which is the key innovation of this proposed
method. We conduct automated and manual evaluations across diverse model
families from 8B to 72B parameters. Additionally, we construct a real-world
writing benchmark named WriteEval for comprehensive evaluation. Results
illustrate that our method achieves consistent improvements in both instruction
following (IFEval from 83.36% to 86.65%) and writing quality (72.75% win rate
in manual expert pairwise evaluations on WriteEval). To the best of our
knowledge, RLMR is the first work to combine subjective preferences with
objective verification in online RL training, providing an effective solution
for multi-dimensional creative writing optimization.
Ссылки и действия
Дополнительные ресурсы: