MultiRAG: A Knowledge-guided Framework for Mitigating Hallucination in Multi-source Retrieval Augmented Generation
2508.03553v1
cs.IR, cs.CL
2025-08-09
Авторы:
Wenlong Wu, Haofen Wang, Bohan Li, Peixuan Huang, Xinzhe Zhao, Lei Liang
Резюме на русском
Одной из основных проблем в области Retrieval Augmented Generation (RAG) является эксплуатация ложной информации (hallucination), которая может усиливаться при использовании множества источников знаний. MultiRAG — это новая архитектура, разработанная для решения этой проблемы. Она вводит два ключевых модуля: (1) **Module для построения знаний**, который использует multi-source line graphs для эффективного агрегации логических связей между различными источниками знаний, и (2) **Sophisticated retrieval module**, реализующий многоуровневую механику вычисления достоверности, которая оценивает объекты на уровне графа и узлов, чтобы идентифицировать и исключить недостоверные данные. Эксперименты на 4 многодоменных запросах и 2 многошаговых датасетах показали, что MultiRAG эффективно улучшает надежность и эффективность знаний в многоисточниковых сценариях, снижая эффекты hallucination. Наш код доступен по ссылке: https://github.com/wuwenlong123/MultiRAG.
Abstract
Retrieval Augmented Generation (RAG) has emerged as a promising solution to
address hallucination issues in Large Language Models (LLMs). However, the
integration of multiple retrieval sources, while potentially more informative,
introduces new challenges that can paradoxically exacerbate hallucination
problems. These challenges manifest primarily in two aspects: the sparse
distribution of multi-source data that hinders the capture of logical
relationships and the inherent inconsistencies among different sources that
lead to information conflicts. To address these challenges, we propose
MultiRAG, a novel framework designed to mitigate hallucination in multi-source
retrieval-augmented generation through knowledge-guided approaches. Our
framework introduces two key innovations: (1) a knowledge construction module
that employs multi-source line graphs to efficiently aggregate logical
relationships across different knowledge sources, effectively addressing the
sparse data distribution issue; and (2) a sophisticated retrieval module that
implements a multi-level confidence calculation mechanism, performing both
graph-level and node-level assessments to identify and eliminate unreliable
information nodes, thereby reducing hallucinations caused by inter-source
inconsistencies. Extensive experiments on four multi-domain query datasets and
two multi-hop QA datasets demonstrate that MultiRAG significantly enhances the
reliability and efficiency of knowledge retrieval in complex multi-source
scenarios. \textcolor{blue}{Our code is available in
https://github.com/wuwenlong123/MultiRAG.
Ссылки и действия
Дополнительные ресурсы: