EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation

2508.06046v1 cs.CL, cs.AI 2025-08-12
Авторы:

Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Zhibo Yang, Xingsheng Zhang, Luxi Xing, Qiang Zhou, Chen Zhang

Резюме на русском

Добавить контекст, метод, результаты, значимость и выводы в соответствии с поставленной задачей. ## Контекст Современные текстовые генераторы, основанные на Large Language Models (LLMs), доказали свою эффективность в задачах, требующих структурированных выводов или конкретных ответов. Однако, в открытых задачах, таких как оценка открытого текста, их показатели остаются недостаточно высокими. Это относится и к задаче оценки рассказов, где необходимо не только оценить качество, но и предоставить структурированный анализ, чтобы улучшить генерацию. Существующие методы часто страдают от недостатка логической структуры в их выводах или ограниченности при формировании подходящих подходов к оценке. Это ставит перед исследователями задачу развития более устойчивых и эффективных методов, которые могут обеспечить качественный анализ и оказать положительное влияние на генерацию текстов. ## Метод Предлагаемый EvolvR-фреймворк основывается на принципе парной сравнительной оценки (pairwise reasoning), который дает более глубокое понимание качества отдельных элементов рассказа. Фреймворк использует многоперсоновую стратегию для самостоятельного синтеза данных, основанных на цепочке мыслей (Chain-of-Thought, CoT), которые включают в себя целевые оценки. Чтобы гарантировать качество используемых данных, введен процесс самостоятельного фильтрации (self-filtering), который использует множество агентов, чтобы улучшить логическую целостность и надежность. Наконец, оценщик (evaluator), обученный на этих данных, представляет собой реWARD модель, которая руководствует задачу генерации рассказов. ## Результаты Исследователи проверили EvolvR на трех различных оценочных бенчмарках: StoryER, HANNA и OpenMEVA. Эксперименты показали, что фреймворк достигает состояния лучшего знания (state-of-the-art) по метрикам качества. Он улучшил качество генерации рассказов, демонстрируя более логичную и корректную оценку рассказов. Также было показано, что выдаваемые оценки могут быть эффективно использованы для улучшения генерации текстов, делая EvolvR не только устойчивым критерием оценки, но и полезным инструментом для улучшения генеративных моделей. ## Значимость EvolvR может быть применен в различных сферах, где необходима качественная оценка текстов, таких как литературные генераторы, медицинская документация, информационные системы. Основные преимущества фреймворка заключаются в том, что он обеспечивает более достоверную оценку, что в свою очередь может повысить качество текстов, сгенерированных генеративными моделями. Его потенциал включает в себя повышение уровн

Abstract

Although the effectiveness of Large Language Models (LLMs) as judges (LLM-as-a-judge) has been validated, their performance remains limited in open-ended tasks, particularly in story evaluation. Accurate story evaluation is crucial not only for assisting human quality judgment but also for providing key signals to guide story generation. However, existing methods face a dilemma: prompt engineering for closed-source models suffers from poor adaptability, while fine-tuning approaches for open-source models lack the rigorous reasoning capabilities essential for story evaluation. To address this, we propose the Self-Evolving Pairwise Reasoning (EvolvR) framework. Grounded in pairwise comparison, the framework first self-synthesizes score-aligned Chain-of-Thought (CoT) data via a multi-persona strategy. To ensure data quality, these raw CoTs undergo a self-filtering process, utilizing multi-agents to guarantee their logical rigor and robustness. Finally, the evaluator trained on the refined data is deployed as a reward model to guide the story generation task. Experimental results demonstrate that our framework achieves state-of-the-art (SOTA) performance on three evaluation benchmarks including StoryER, HANNA and OpenMEVA. Furthermore, when served as a reward model, it significantly enhances the quality of generated stories, thereby fully validating the superiority of our self-evolving approach.

Ссылки и действия