Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too
2509.05440v1
cs.CL, cs.AI, cs.LG
2025-09-10
Авторы:
Logan Lawrence, Ashton Williamson, Alexander Shelton
Резюме на русском
## Контекст
В последние годы роль глубоко обученных языковых моделей в анализе и генерации текстов существенно выросла. Эти модели теперь применяются для оценки свободного текста, включая сводки, диалоги и генерацию рассказов. Однако оценка качества такого текста через методики, основывающиеся на сравнениях с реальными данными, часто сталкивается с проблемами, такими как недостаточная точность в абсолютной оценке или трудности в использовании для задач, требующих определения порогов качества. Существующие методы, основанные на сравнении пар, хотя и эффективны в выявлении относительных отличий, часто не могут предоставить абсолютные оценки. Это решаетейми подходом, который использует синтетические сводки для формирования парного рейтинга текстов.
## Метод
Метод, предложенный в работе, основывается на генерации синтетических сводных текстов, которые позволяют формировать парные сравнения между машинно-генерированным и гуманно-созданным текстом. Эти синтетические тексты генерируются специальноми для сравнений, чтобы добиться более точной оценки качества. Архитектура метода включает в себя определение множества характеристик, которые используются для сравнения в рамках парных сравнений. Технические решения включают механизмы аггрегации этих характеристик для вычисления абсолютной оценки. Метод работает в реальном времени и позволяет получить не только относительные, но и абсолютные оценки текстов.
## Результаты
Результаты экспериментов показали, что предлагаемый подход дает сходные результаты с текущими состояниями технологии в области парных экспериментов. Метрики, такие как axis-averaged sample-level correlations, показали значительные улучшения на бенчмарках SummEval (+0.03) и HANNA (+0.05), хотя на TopicalChat результат оказался незначительно ниже (-0.03). Эти результаты подтверждают, что новый метод может давать абсолютные оценки с разумной точностью без потери в относительных сравнениях. Данные синтетических сводных текстов, использованные в экспериментах, также были опубликованы для поддержки дальнейших исследований.
## Значимость
Метод может применяться в различных областях, включая анализ сводных текстов, диалоговых систем, и генерацию рассказов. Он предоставляет значительные преимущества перед текущими методами, так как обеспечивает как относительные, так и абсолютные оценки без издержек на скорость и ресурсы. Это может быть применено в системах, требующих определения порогов качества текста или в анализе массового текста для интеллектуальных систем. Будущие исследования мо
Abstract
As large-language models have been increasingly used as automatic raters for
evaluating free-form content, including document summarization, dialog, and
story generation, work has been dedicated to evaluating such models by
measuring their correlations with human judgment. For \textit{sample-level}
performance, methods which operate by using pairwise comparisons between
machine-generated text perform well but often lack the ability to assign
absolute scores to individual summaries, an ability crucial for use cases that
require thresholding. In this work, we propose a direct-scoring method which
uses synthetic summaries to act as pairwise machine rankings at test time. We
show that our method performs comparably to state-of-the-art pairwise
evaluators in terms of axis-averaged sample-level correlations on the SummEval
(\textbf{+0.03}), TopicalChat (\textbf{-0.03}), and HANNA (\textbf{+0.05})
meta-evaluation benchmarks, and release the synthetic in-context summaries as
data to facilitate future work.
Ссылки и действия
Дополнительные ресурсы: