Benchmarking Computer Science Survey Generation

2508.15658v1 cs.CL, cs.AI, cs.IR 2025-08-23

Авторы:

Weihang Su, Anzhe Xie, Qingyao Ai, Jianming Long, Jiaxin Mao, Ziyi Ye, Yiqun Liu

Резюме на русском

## Контекст Область исследования, связанная с поиском и анализом информации в области научных публикаций, является важной для улучшения доступности и понимания научных знаний. Настоящий взгляд на мотивации, связанные с развитием технологий для автоматизации генерации научных статей, показывает, что это помогает улучшить процесс сбора и подбора сведений для научных статей. Однако существуют сложности, такие как необходимость ручной работы и нехватка бенчмарков для оценки автоматизированных технологий. Эти ограничения затрудняют развитие систем, которые могли бы эффективно автоматизировать генерацию статей научных обзоров, как в области компьютерных наук. ## Метод В данном исследовании предлагается SurGE (Survey Generation Evaluation), новый бенчмарк для оценки моделей, которые генерируют научные обзоры в области компьютерных наук. Бенчмарк включает (1) коллекцию тестовых примеров, каждый из которых содержит описание темы, экспертно написанный обзор и его список цитирований, и (2) крупную коллекцию академических документов, служащую как базу для поиска информации. Методология включает разработку фреймворка для автоматической оценки генерируемых статей по таким критериям, как полнота информации, точность цитирований, структурная организация и качество содержания. Это позволяет провести комплексную оценку моделей, выделив сложности и трудности в задаче генерации научных обзоров. ## Результаты В ходе экспериментов были протестированы различные модели, включая LLMs (large language models), для оценки их работы в SurGE. Результаты показали, что генерация научных обзоров остается высокой сложной задачей, даже для моделей с самостоятельной оценкой. Оценка показала существующие проблемы, такие как несогласованность цитирований, неполнота информации и несоответствие структурным требованиям. Эти результаты подчеркивают необходимость дальнейшего исследования для улучшения моделей, чтобы они могли стать более эффективными и точными в генерации научных статей. ## Значимость Научные обзоры играют важную роль в научном сообществе, поскольку они дают обзор развития науки и помогают в понимании перспектив. Улучшенные модели генерации обзоров могут иметь значительное влияние, облегчив процесс создания обзорных статей и улучшив доступность научной информации. В то же время, SurGE может стать базой для открытого развития технологий в этой области, позволяя разработчикам создавать и тестировать модели с открытым кодом. Это дает возможность совершенствовать технологии и привлекать внимание к задаче генерации обзоров в научных статьях. ## Выводы В этом исследовани

Abstract

Scientific survey articles play a vital role in summarizing research progress, yet their manual creation is becoming increasingly infeasible due to the rapid growth of academic literature. While large language models (LLMs) offer promising capabilities for automating this process, progress in this area is hindered by the absence of standardized benchmarks and evaluation protocols. To address this gap, we introduce SurGE (Survey Generation Evaluation), a new benchmark for evaluating scientific survey generation in the computer science domain. SurGE consists of (1) a collection of test instances, each including a topic description, an expert-written survey, and its full set of cited references, and (2) a large-scale academic corpus of over one million papers that serves as the retrieval pool. In addition, we propose an automated evaluation framework that measures generated surveys across four dimensions: information coverage, referencing accuracy, structural organization, and content quality. Our evaluation of diverse LLM-based approaches shows that survey generation remains highly challenging, even for advanced self-reflection frameworks. These findings highlight the complexity of the task and the necessity for continued research. We have open-sourced all the code, data, and models at: https://github.com/oneal2000/SurGE

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Benchmarking Computer Science Survey Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ADORE: Autonomous Domain-Oriented Relevance Engine for E-commerce

Evidence-Guided Schema Normalization for Temporal Tabular Reasoning

SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Di...

Principled Context Engineering for RAG: Statistical Guarantees via Conformal Pre...

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Inform...

Навигация