SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems
2508.11310v1
cs.CL, cs.AI, cs.IR
2025-08-19
Авторы:
Beichen Guo, Zhiyuan Wen, Yu Yang, Peng Gao, Ruosong Yang, Jiaxing Shen
Резюме на русском
## Контекст
В последние годы автоматизация генерирования академических серверов (Automatic Survey Generation, ASG) приобрела важное место в сфере естественного языкового процессинга. Этот процесс, который принято выполнять вручную, требует значительных затрат времени и усилий. Но недавние достижения в области бо LARGE LANGUAGE MODELS (LLMs) открыли новые возможности для эффективного создания серверов. Однако существуют проблемы, такие как безустойчивость, несогласованность между метриками и пользовательскими предпочтениями. Также нет согласованных подходов к подтверждению качества генерируемых серверов. Таким образом, необходима систематизированная и многогранная методика для оценки систем ASG, чтобы обеспечить объективность и достоверность результатов.
## Метод
SGSimEval предлагает совершенно новый подход к оценке систем ASG, который основывается на многомерной оценке. Он включает оценку трех ключевых аспектов: **образца (outline)**, **содержания (content)** и **ссылок (references)**. Каждый аспект имеет свои подсчетные показатели, которые тесно сочетаются с прагматическими технологиями. Для оценки выдаются два типа результатов: **LLM-based score** и важная метрика **human preference**. LLM-based score оценивается в рамках многомерной модели, которая включает в себя не только текст, но и целостность системы. Human preference metrics, в свою очередь, позволяют учитывать как непосредственное качество, так и гармонию с пользовательскими предпочтениями.
## Результаты
В ходе экспериментов использовались коллекции данных из академических серверов, где были оценены основные системы ASG. Обнаружено, что текущие системы ASG превосходят пользовательские ожидания в **определении образца (outline generation)**, но имеют существенные проблемы в **содержании (content generation)** и **ссылках (references)**. Метрики human preference показали хорошую корреляцию с человеческими оценками. Эта система позволяет оценивать системы не только по логичности и грамматической корректности, но и с точки зрения включенности в реальность.
## Значимость
SGSimEval может применяться для разработки и валидации систем ASG в различных областях, включая научный анализ, образовательные системы и даже коммерческие решения. Особым преимуществом является возможность получения объективных оценок, а также оценки пользовательских предпочтений. Эта методика может способствовать улучшению качества генерируемых серверов, обеспечивая более точный функционал и удовлетворение потребностей пользователей.
## Выводы
SGSimEval представляет собой мощный инструмент для оценки систем ASG, который объединяет многомерную оценку, LLM-based scoring и human preference metrics. Он определяет сильные и слабые стороны текущих сист
Abstract
The growing interest in automatic survey generation (ASG), a task that
traditionally required considerable time and effort, has been spurred by recent
advances in large language models (LLMs). With advancements in
retrieval-augmented generation (RAG) and the rising popularity of multi-agent
systems (MASs), synthesizing academic surveys using LLMs has become a viable
approach, thereby elevating the need for robust evaluation methods in this
domain. However, existing evaluation methods suffer from several limitations,
including biased metrics, a lack of human preference, and an over-reliance on
LLMs-as-judges. To address these challenges, we propose SGSimEval, a
comprehensive benchmark for Survey Generation with Similarity-Enhanced
Evaluation that evaluates automatic survey generation systems by integrating
assessments of the outline, content, and references, and also combines
LLM-based scoring with quantitative metrics to provide a multifaceted
evaluation framework. In SGSimEval, we also introduce human preference metrics
that emphasize both inherent quality and similarity to humans. Extensive
experiments reveal that current ASG systems demonstrate human-comparable
superiority in outline generation, while showing significant room for
improvement in content and reference generation, and our evaluation metrics
maintain strong consistency with human assessments.
Ссылки и действия
Дополнительные ресурсы: