Benchmarking Computer Science Survey Generation
2508.15658v1
cs.CL, cs.AI, cs.IR
2025-08-23
Авторы:
Weihang Su, Anzhe Xie, Qingyao Ai, Jianming Long, Jiaxin Mao, Ziyi Ye, Yiqun Liu
Резюме на русском
## Контекст
Область исследования, связанная с поиском и анализом информации в области научных публикаций, является важной для улучшения доступности и понимания научных знаний. Настоящий взгляд на мотивации, связанные с развитием технологий для автоматизации генерации научных статей, показывает, что это помогает улучшить процесс сбора и подбора сведений для научных статей. Однако существуют сложности, такие как необходимость ручной работы и нехватка бенчмарков для оценки автоматизированных технологий. Эти ограничения затрудняют развитие систем, которые могли бы эффективно автоматизировать генерацию статей научных обзоров, как в области компьютерных наук.
## Метод
В данном исследовании предлагается SurGE (Survey Generation Evaluation), новый бенчмарк для оценки моделей, которые генерируют научные обзоры в области компьютерных наук. Бенчмарк включает (1) коллекцию тестовых примеров, каждый из которых содержит описание темы, экспертно написанный обзор и его список цитирований, и (2) крупную коллекцию академических документов, служащую как базу для поиска информации. Методология включает разработку фреймворка для автоматической оценки генерируемых статей по таким критериям, как полнота информации, точность цитирований, структурная организация и качество содержания. Это позволяет провести комплексную оценку моделей, выделив сложности и трудности в задаче генерации научных обзоров.
## Результаты
В ходе экспериментов были протестированы различные модели, включая LLMs (large language models), для оценки их работы в SurGE. Результаты показали, что генерация научных обзоров остается высокой сложной задачей, даже для моделей с самостоятельной оценкой. Оценка показала существующие проблемы, такие как несогласованность цитирований, неполнота информации и несоответствие структурным требованиям. Эти результаты подчеркивают необходимость дальнейшего исследования для улучшения моделей, чтобы они могли стать более эффективными и точными в генерации научных статей.
## Значимость
Научные обзоры играют важную роль в научном сообществе, поскольку они дают обзор развития науки и помогают в понимании перспектив. Улучшенные модели генерации обзоров могут иметь значительное влияние, облегчив процесс создания обзорных статей и улучшив доступность научной информации. В то же время, SurGE может стать базой для открытого развития технологий в этой области, позволяя разработчикам создавать и тестировать модели с открытым кодом. Это дает возможность совершенствовать технологии и привлекать внимание к задаче генерации обзоров в научных статьях.
## Выводы
В этом исследовани
Abstract
Scientific survey articles play a vital role in summarizing research
progress, yet their manual creation is becoming increasingly infeasible due to
the rapid growth of academic literature. While large language models (LLMs)
offer promising capabilities for automating this process, progress in this area
is hindered by the absence of standardized benchmarks and evaluation protocols.
To address this gap, we introduce SurGE (Survey Generation Evaluation), a new
benchmark for evaluating scientific survey generation in the computer science
domain. SurGE consists of (1) a collection of test instances, each including a
topic description, an expert-written survey, and its full set of cited
references, and (2) a large-scale academic corpus of over one million papers
that serves as the retrieval pool. In addition, we propose an automated
evaluation framework that measures generated surveys across four dimensions:
information coverage, referencing accuracy, structural organization, and
content quality. Our evaluation of diverse LLM-based approaches shows that
survey generation remains highly challenging, even for advanced self-reflection
frameworks. These findings highlight the complexity of the task and the
necessity for continued research. We have open-sourced all the code, data, and
models at: https://github.com/oneal2000/SurGE
Ссылки и действия
Дополнительные ресурсы: