Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System

2509.17240v1 cs.AI, cs.CL, cs.LG, cs.MA 2025-09-24
Авторы:

Abdullah Mushtaq, Muhammad Rafay Naeem, Ibrahim Ghaznavi, Alaa Abd-alrazaq, Aliya Tabassum, Junaid Qadir

Резюме на русском

## Контекст Systematic Literature Reviews (SLRs) являются ключевым элементом evidence-based research, но часто требуют больших усилий и являются уязвимыми для непоследовательности в различных дисциплинах. Эти проблемы вызывают нужду в эффективных инструментах для автоматизации процесса оценки SLR. Недостаток современных методов в том, что они либо слишком затратны, либо недостаточно точны. Мы предлагаем LLM-based SLR evaluation copilot, основанный на Multi-Agent System (MAS), для помощи исследователям в оценке качества SLR. MAS автоматизирует проверку протоколов, методологическую оценку и анализ тематической релевантности с использованием базы знаний. ## Метод Мы разработали Multi-Agent System (MAS) с использованием LLM, который работает на основе PRISMA-guidelines. Каждый агент отвечает за конкретную задачу: проверка протокола, методологическая оценка и тематический анализ. Архитектура MAS включает в себя специализированные модели, обученные на больших данных для точной аналитики. Метод предлагает структурированный подход к оценке SLR и позволяет сравнивать результаты с expert-annotated PRISMA scores. Мы использовали 5 SLRs из различных дисциплин для экспериментов, чтобы проверить эффективность нашего подхода. ## Результаты Мы провели эксперименты с 5 различными SLRs и сравнили наши результаты с PRISMA scores, полученными экспертами. Наша модель показала 84% согласованности с эталонными данными. Эти результаты показывают, что наше решение эффективно в автоматизации процесса SLR-оценки. Особенно заметен выигрыш в точности и структуре оценки в сравнении с традиционными методами. Это демонстрирует возможность нашей модели для точной и структурированной оценки SLR. ## Значимость Наше решение может быть применено во многих областях, где требуется оценка качества SLR, включая health sciences, social sciences и engineering. Оно обеспечивает более точный и эффективный подход к оценке SLR, снижая трудозатраты и улучшая единообразие оценок. Это может привести к более качественным и быстрейшим итогам в различных научных и практических задачах. ## Выводы Мы успешно продемонстрировали, что наш LLM-based MAS может существенно улучшить процесс оценки SLR. Наша работа открывает путь к будущим исследованиям в области NLP-driven automation для структурированной и точной оценки SLR, что может иметь широкое применение в различных дисциплинах. Будущие исследования будут направлены на улучшение точности, расширение набора данных и расширение применений системы в новых областях.

Abstract

Systematic Literature Reviews (SLRs) are foundational to evidence-based research but remain labor-intensive and prone to inconsistency across disciplines. We present an LLM-based SLR evaluation copilot built on a Multi-Agent System (MAS) architecture to assist researchers in assessing the overall quality of the systematic literature reviews. The system automates protocol validation, methodological assessment, and topic relevance checks using a scholarly database. Unlike conventional single-agent methods, our design integrates a specialized agentic approach aligned with PRISMA guidelines to support more structured and interpretable evaluations. We conducted an initial study on five published SLRs from diverse domains, comparing system outputs to expert-annotated PRISMA scores, and observed 84% agreement. While early results are promising, this work represents a first step toward scalable and accurate NLP-driven systems for interdisciplinary workflows and reveals their capacity for rigorous, domain-agnostic knowledge aggregation to streamline the review process.

Ссылки и действия