Instance-level Performance Prediction for Long-form Generation Tasks

2509.07309v1 cs.CL, cs.LG 2025-09-11
Авторы:

Chi-Yang Hsu, Alexander Braylan, Yiheng Su, Omar Alonso, Matthew Lease

Резюме на русском

## Контекст Длинная форма генерирования текста (long-form generation) широко используется в сферах, таких как новостные статьи, отчеты, диалоги, исследовательские работы и др. Однако оценка качества таких текстов чрезвычайно сложна из-за того, что она зависит от множества функций, включая логическую структуру, стиль, точность информации и др. Существующие подходы ориентированы на либо оценку всего текста в целом, либо использование специфичных метрик для конкретных задач. Отсутствие универсальных методов для прогнозирования показателей качества на уровне отдельных экземпляров (instance-level) ограничивает возможности интеллектуальных систем для автоматизированной оценки текстов. Целью данного исследования является развитие методологии, позволяющей прогнозировать оценки по отдельным экземплярам данных, учитывая их многогранность и тонкость метрик качества. ## Метод Методология основывается на прогнозировании показателей качества текстов на уровне отдельных экземпляров с применением нейросетевых моделей. Основной идеей является создание модели, которая принимает в качестве входных данных только черный ящик модели (input/output) и предсказывает счета по метрикам качества. Важной особенностью является возможность прогнозировать не только точные значения метрик, но и интервалы доверия для оценки неопределенности. Модель была тренирована на 11 датасетах, связанных с различными задачами длинной формы генерирования, используя различные глубокие нейронные сети и базовые алгоритмы. Метод требует только небольших объемов обучающих данных (16 примеров) для эффективной обученности. ## Результаты Эксперименты проводились на 11 датасетах, включая задачи, такие как генерирование новостных статей, отчетов и диалогов. Были использованы несколько моделей глубокого обучения и базовые алгоритмы. Результаты показали, что модель эффективно предсказывает оценки качества, даже при ограниченном количестве обучающих данных. Интервалы доверия, предсказанные моделью, позволяют оценить неопределенность прогноза, что является значительным преимуществом. Общий показатель точности прогнозов оставался высоким, даже при оценке на разных датасетах и задачах. ## Значимость Результаты имеют значительные практические применения в сферах автоматизированного контроля качества текстов, включая новостные сайты, учебные платформы и системы рекомендаций. Метод предлагает более точную и гибкую оценку текстов, что может улучшить качество автоматизированных систем. Модель готова к применению в реальных условиях, так как отображает не только точные результаты, но и их неопределен

Abstract

We motivate and share a new benchmark for instance-level performance prediction of long-form generation tasks having multi-faceted, fine-grained quality metrics. Our task-, model- and metric-agnostic formulation predicts continuous evaluation metric scores given only black-box model inputs and outputs. Beyond predicting point estimates of metric scores, the benchmark also requires inferring prediction intervals to quantify uncertainty around point estimates. Evaluation spans 11 long-form datasets/tasks with multiple LLMs, baselines, and metrics per task. We show that scores can be effectively predicted across long-form generation tasks using as few as 16 training examples. Overall, we introduce a novel and useful task, a valuable benchmark to drive progress, and baselines ready for practical adoption today.

Ссылки и действия