Добавить контекст, метод, результаты, значимость и выводы в соответствии с поставленной задачей.
## Контекст
Современные текстовые генераторы, основанные на Large Language Models (LLMs), доказали свою эффективность в задачах, требующих структурированных выводов или конкретных ответов. Однако, в открытых задачах, таких как оценка открытого текста, их показатели остаются недостаточно высокими. Это относится и к задаче оценки рассказов, где необходимо не только оценить качество, но и предоставить структурированный анализ, чтобы улучшить генерацию. Существующие методы часто страдают от недостатка логической структуры в их выводах или ограниченности при формировании подходящих подходов к оценке. Это ставит перед исследователями задачу развития более устойчивых и эффективных методов, которые могут обеспечить качественный анализ и оказать положительное влияние на генерацию текстов.
## Метод
Предлагаемый EvolvR-фреймворк основывается на принципе парной сравнительной оценки (pairwise reasoning), который дает более глубокое понимание качества отдельных элементов рассказа. Фреймворк использует многоперсоновую стратегию для самостоятельного синтеза данных, основанных на цепочке мыслей (Chain-of-Thought, CoT), которые включают в себя целевые оценки. Чтобы гарантировать качество используемых данных, введен процесс самостоятельного фильтрации (self-filtering), который использует множество агентов, чтобы улучшить логическую целостность и надежность. Наконец, оценщик (evaluator), обученный на этих данных, представляет собой реWARD модель, которая руководствует задачу генерации рассказов.
## Результаты
Исследователи проверили EvolvR на трех различных оценочных бенчмарках: StoryER, HANNA и OpenMEVA. Эксперименты показали, что фреймворк достигает состояния лучшего знания (state-of-the-art) по метрикам качества. Он улучшил качество генерации рассказов, демонстрируя более логичную и корректную оценку рассказов. Также было показано, что выдаваемые оценки могут быть эффективно использованы для улучшения генерации текстов, делая EvolvR не только устойчивым критерием оценки, но и полезным инструментом для улучшения генеративных моделей.
## Значимость
EvolvR может быть применен в различных сферах, где необходима качественная оценка текстов, таких как литературные генераторы, медицинская документация, информационные системы. Основные преимущества фреймворка заключаются в том, что он обеспечивает более достоверную оценку, что в свою очередь может повысить качество текстов, сгенерированных генеративными моделями. Его потенциал включает в себя повышение уровн