📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

2025-08-12

Авторы:

Andrew Brown, Muhammad Roman, Barry Devereux

## Контекст Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений. ## Метод Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG. ## Результаты Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов. ## Значимость Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.

Annotation:

This systematic review of the research literature on retrieval-augmented generation (RAG) provides a focused analysis of the most highly cited studies published between 2020 and May 2025. A total of 128 articles met our inclusion criteria. The records were retrieved from ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP). RAG couples a neural retriever with a generative language model, grounding output in up-to-date, non-parametric me...

ID: 2508.06401v1 cs.DL, cs.AI, cs.CL, cs.IR

arXiv PDF