EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation
2508.06046v1
cs.CL, cs.AI
2025-08-12
Авторы:
Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Zhibo Yang, Xingsheng Zhang, Luxi Xing, Qiang Zhou, Chen Zhang
Резюме на русском
Добавить контекст, метод, результаты, значимость и выводы в соответствии с поставленной задачей.
## Контекст
Современные текстовые генераторы, основанные на Large Language Models (LLMs), доказали свою эффективность в задачах, требующих структурированных выводов или конкретных ответов. Однако, в открытых задачах, таких как оценка открытого текста, их показатели остаются недостаточно высокими. Это относится и к задаче оценки рассказов, где необходимо не только оценить качество, но и предоставить структурированный анализ, чтобы улучшить генерацию. Существующие методы часто страдают от недостатка логической структуры в их выводах или ограниченности при формировании подходящих подходов к оценке. Это ставит перед исследователями задачу развития более устойчивых и эффективных методов, которые могут обеспечить качественный анализ и оказать положительное влияние на генерацию текстов.
## Метод
Предлагаемый EvolvR-фреймворк основывается на принципе парной сравнительной оценки (pairwise reasoning), который дает более глубокое понимание качества отдельных элементов рассказа. Фреймворк использует многоперсоновую стратегию для самостоятельного синтеза данных, основанных на цепочке мыслей (Chain-of-Thought, CoT), которые включают в себя целевые оценки. Чтобы гарантировать качество используемых данных, введен процесс самостоятельного фильтрации (self-filtering), который использует множество агентов, чтобы улучшить логическую целостность и надежность. Наконец, оценщик (evaluator), обученный на этих данных, представляет собой реWARD модель, которая руководствует задачу генерации рассказов.
## Результаты
Исследователи проверили EvolvR на трех различных оценочных бенчмарках: StoryER, HANNA и OpenMEVA. Эксперименты показали, что фреймворк достигает состояния лучшего знания (state-of-the-art) по метрикам качества. Он улучшил качество генерации рассказов, демонстрируя более логичную и корректную оценку рассказов. Также было показано, что выдаваемые оценки могут быть эффективно использованы для улучшения генерации текстов, делая EvolvR не только устойчивым критерием оценки, но и полезным инструментом для улучшения генеративных моделей.
## Значимость
EvolvR может быть применен в различных сферах, где необходима качественная оценка текстов, таких как литературные генераторы, медицинская документация, информационные системы. Основные преимущества фреймворка заключаются в том, что он обеспечивает более достоверную оценку, что в свою очередь может повысить качество текстов, сгенерированных генеративными моделями. Его потенциал включает в себя повышение уровн
Abstract
Although the effectiveness of Large Language Models (LLMs) as judges
(LLM-as-a-judge) has been validated, their performance remains limited in
open-ended tasks, particularly in story evaluation. Accurate story evaluation
is crucial not only for assisting human quality judgment but also for providing
key signals to guide story generation. However, existing methods face a
dilemma: prompt engineering for closed-source models suffers from poor
adaptability, while fine-tuning approaches for open-source models lack the
rigorous reasoning capabilities essential for story evaluation. To address
this, we propose the Self-Evolving Pairwise Reasoning (EvolvR) framework.
Grounded in pairwise comparison, the framework first self-synthesizes
score-aligned Chain-of-Thought (CoT) data via a multi-persona strategy. To
ensure data quality, these raw CoTs undergo a self-filtering process, utilizing
multi-agents to guarantee their logical rigor and robustness. Finally, the
evaluator trained on the refined data is deployed as a reward model to guide
the story generation task. Experimental results demonstrate that our framework
achieves state-of-the-art (SOTA) performance on three evaluation benchmarks
including StoryER, HANNA and OpenMEVA. Furthermore, when served as a reward
model, it significantly enhances the quality of generated stories, thereby
fully validating the superiority of our self-evolving approach.
Ссылки и действия
Дополнительные ресурсы: