RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing

2508.18642v1 cs.AI, cs.CL 2025-08-28
Авторы:

Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi

Резюме на русском

## Контекст Создание текстов в творческом письме является сложной задачей, требующей сочетания творческих способностей и строгого соблюдения правил. Одной из основных проблем в данной области является необходимость балансировки между субъективными качествами текста, такими как литературность и эмоциональная глубина, и объективными ограничениями, такими как форматные требования и границы числа слов. На данный момент, существующие методы усовершенствования текстов через оптимизацию взаимосвязи этих качеств часто не могут эффективно решать эту задачу. Это приводит к проблемам в поддержании баланса в творческом процессе. Мы выделили две главные проблемы: одиночные стратегии вознаграждения не могут эффективно улучшить оба аспекта одновременно, а статические смеси целей не позволяют адаптироваться к разным сценариям. ## Метод Мы предлагаем метод Reinforcement Learning with Mixed Rewards (RLMR), который использует динамическую смесь вознаграждений для оптимизации творческого письма. Этот метод включает два модели: модель для оценки литературных качеств текста и модель для проверки соблюдения конструктивных ограничений. Целевой вес вознаграждения адаптируется в зависимости от качества текста в каждой группе выборки. Это позволяет уменьшить вес вознаграждения для текстов, нарушающих ограничения, и, как следствие, отозвать их при обучении. Это динамическое регулирование целей вознаграждения является основным инновационным аспектом нашего подхода. ## Результаты Мы провели разнообразные эксперименты с моделями различных размеров, начиная от 8 миллиардов до 72 миллиардов параметров. Для полной оценки результатов, мы создали реалистичный бенчмарк WriteEval для тестирования на реальных задачах творческого письма. Наши эксперименты показали, что RLMR значительно улучшает обе стороны задачи: инструментальное поведение (Instruction Following Evaluation) повысилось с 83.36% до 86.65%, а литературные качества текста, оцененные в ручную, показали выигрыш в 72.75% при парном сравнении в WriteEval. ## Значимость Метод RLMR широко применим в области творческого письма, включая создание поэзии, текстов для электронных книг, рекламных текстов и других текстов, требующих баланса между литературными и формальными качествами. Он демонстрирует свой достоинству в том, что он может эффективно адаптироваться к разным сценариям и улучшать как субъективные, так и объективные качества текста. Мы считаем, что RLMR может стать ключевым инструментом в развитии творческих текстов и стать первым шагом к созданию более интеллектуальных и универса

Abstract

Large language models are extensively utilized in creative writing applications. Creative writing requires a balance between subjective writing quality (e.g., literariness and emotional expression) and objective constraint following (e.g., format requirements and word limits). Existing reinforcement learning methods struggle to balance these two aspects: single reward strategies fail to improve both abilities simultaneously, while fixed-weight mixed-reward methods lack the ability to adapt to different writing scenarios. To address this problem, we propose Reinforcement Learning with Mixed Rewards (RLMR), utilizing a dynamically mixed reward system from a writing reward model evaluating subjective writing quality and a constraint verification model assessing objective constraint following. The constraint following reward weight is adjusted dynamically according to the writing quality within sampled groups, ensuring that samples violating constraints get negative advantage in GRPO and thus penalized during training, which is the key innovation of this proposed method. We conduct automated and manual evaluations across diverse model families from 8B to 72B parameters. Additionally, we construct a real-world writing benchmark named WriteEval for comprehensive evaluation. Results illustrate that our method achieves consistent improvements in both instruction following (IFEval from 83.36\% to 86.65\%) and writing quality (72.75\% win rate in manual expert pairwise evaluations on WriteEval). To the best of our knowledge, RLMR is the first work to combine subjective preferences with objective verification in online RL training, providing an effective solution for multi-dimensional creative writing optimization.

Ссылки и действия