SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems

2508.11310v1 cs.CL, cs.AI, cs.IR 2025-08-19
Авторы:

Beichen Guo, Zhiyuan Wen, Yu Yang, Peng Gao, Ruosong Yang, Jiaxing Shen

Резюме на русском

## Контекст В последние годы автоматизация генерирования академических серверов (Automatic Survey Generation, ASG) приобрела важное место в сфере естественного языкового процессинга. Этот процесс, который принято выполнять вручную, требует значительных затрат времени и усилий. Но недавние достижения в области бо LARGE LANGUAGE MODELS (LLMs) открыли новые возможности для эффективного создания серверов. Однако существуют проблемы, такие как безустойчивость, несогласованность между метриками и пользовательскими предпочтениями. Также нет согласованных подходов к подтверждению качества генерируемых серверов. Таким образом, необходима систематизированная и многогранная методика для оценки систем ASG, чтобы обеспечить объективность и достоверность результатов. ## Метод SGSimEval предлагает совершенно новый подход к оценке систем ASG, который основывается на многомерной оценке. Он включает оценку трех ключевых аспектов: **образца (outline)**, **содержания (content)** и **ссылок (references)**. Каждый аспект имеет свои подсчетные показатели, которые тесно сочетаются с прагматическими технологиями. Для оценки выдаются два типа результатов: **LLM-based score** и важная метрика **human preference**. LLM-based score оценивается в рамках многомерной модели, которая включает в себя не только текст, но и целостность системы. Human preference metrics, в свою очередь, позволяют учитывать как непосредственное качество, так и гармонию с пользовательскими предпочтениями. ## Результаты В ходе экспериментов использовались коллекции данных из академических серверов, где были оценены основные системы ASG. Обнаружено, что текущие системы ASG превосходят пользовательские ожидания в **определении образца (outline generation)**, но имеют существенные проблемы в **содержании (content generation)** и **ссылках (references)**. Метрики human preference показали хорошую корреляцию с человеческими оценками. Эта система позволяет оценивать системы не только по логичности и грамматической корректности, но и с точки зрения включенности в реальность. ## Значимость SGSimEval может применяться для разработки и валидации систем ASG в различных областях, включая научный анализ, образовательные системы и даже коммерческие решения. Особым преимуществом является возможность получения объективных оценок, а также оценки пользовательских предпочтений. Эта методика может способствовать улучшению качества генерируемых серверов, обеспечивая более точный функционал и удовлетворение потребностей пользователей. ## Выводы SGSimEval представляет собой мощный инструмент для оценки систем ASG, который объединяет многомерную оценку, LLM-based scoring и human preference metrics. Он определяет сильные и слабые стороны текущих сист

Abstract

The growing interest in automatic survey generation (ASG), a task that traditionally required considerable time and effort, has been spurred by recent advances in large language models (LLMs). With advancements in retrieval-augmented generation (RAG) and the rising popularity of multi-agent systems (MASs), synthesizing academic surveys using LLMs has become a viable approach, thereby elevating the need for robust evaluation methods in this domain. However, existing evaluation methods suffer from several limitations, including biased metrics, a lack of human preference, and an over-reliance on LLMs-as-judges. To address these challenges, we propose SGSimEval, a comprehensive benchmark for Survey Generation with Similarity-Enhanced Evaluation that evaluates automatic survey generation systems by integrating assessments of the outline, content, and references, and also combines LLM-based scoring with quantitative metrics to provide a multifaceted evaluation framework. In SGSimEval, we also introduce human preference metrics that emphasize both inherent quality and similarity to humans. Extensive experiments reveal that current ASG systems demonstrate human-comparable superiority in outline generation, while showing significant room for improvement in content and reference generation, and our evaluation metrics maintain strong consistency with human assessments.

Ссылки и действия