Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System
2509.17240v1
cs.AI, cs.CL, cs.LG, cs.MA
2025-09-24
Авторы:
Abdullah Mushtaq, Muhammad Rafay Naeem, Ibrahim Ghaznavi, Alaa Abd-alrazaq, Aliya Tabassum, Junaid Qadir
Резюме на русском
## Контекст
Systematic Literature Reviews (SLRs) являются ключевым элементом evidence-based research, но часто требуют больших усилий и являются уязвимыми для непоследовательности в различных дисциплинах. Эти проблемы вызывают нужду в эффективных инструментах для автоматизации процесса оценки SLR. Недостаток современных методов в том, что они либо слишком затратны, либо недостаточно точны. Мы предлагаем LLM-based SLR evaluation copilot, основанный на Multi-Agent System (MAS), для помощи исследователям в оценке качества SLR. MAS автоматизирует проверку протоколов, методологическую оценку и анализ тематической релевантности с использованием базы знаний.
## Метод
Мы разработали Multi-Agent System (MAS) с использованием LLM, который работает на основе PRISMA-guidelines. Каждый агент отвечает за конкретную задачу: проверка протокола, методологическая оценка и тематический анализ. Архитектура MAS включает в себя специализированные модели, обученные на больших данных для точной аналитики. Метод предлагает структурированный подход к оценке SLR и позволяет сравнивать результаты с expert-annotated PRISMA scores. Мы использовали 5 SLRs из различных дисциплин для экспериментов, чтобы проверить эффективность нашего подхода.
## Результаты
Мы провели эксперименты с 5 различными SLRs и сравнили наши результаты с PRISMA scores, полученными экспертами. Наша модель показала 84% согласованности с эталонными данными. Эти результаты показывают, что наше решение эффективно в автоматизации процесса SLR-оценки. Особенно заметен выигрыш в точности и структуре оценки в сравнении с традиционными методами. Это демонстрирует возможность нашей модели для точной и структурированной оценки SLR.
## Значимость
Наше решение может быть применено во многих областях, где требуется оценка качества SLR, включая health sciences, social sciences и engineering. Оно обеспечивает более точный и эффективный подход к оценке SLR, снижая трудозатраты и улучшая единообразие оценок. Это может привести к более качественным и быстрейшим итогам в различных научных и практических задачах.
## Выводы
Мы успешно продемонстрировали, что наш LLM-based MAS может существенно улучшить процесс оценки SLR. Наша работа открывает путь к будущим исследованиям в области NLP-driven automation для структурированной и точной оценки SLR, что может иметь широкое применение в различных дисциплинах. Будущие исследования будут направлены на улучшение точности, расширение набора данных и расширение применений системы в новых областях.
Abstract
Systematic Literature Reviews (SLRs) are foundational to evidence-based
research but remain labor-intensive and prone to inconsistency across
disciplines. We present an LLM-based SLR evaluation copilot built on a
Multi-Agent System (MAS) architecture to assist researchers in assessing the
overall quality of the systematic literature reviews. The system automates
protocol validation, methodological assessment, and topic relevance checks
using a scholarly database. Unlike conventional single-agent methods, our
design integrates a specialized agentic approach aligned with PRISMA guidelines
to support more structured and interpretable evaluations. We conducted an
initial study on five published SLRs from diverse domains, comparing system
outputs to expert-annotated PRISMA scores, and observed 84% agreement. While
early results are promising, this work represents a first step toward scalable
and accurate NLP-driven systems for interdisciplinary workflows and reveals
their capacity for rigorous, domain-agnostic knowledge aggregation to
streamline the review process.