MultiRAG: A Knowledge-guided Framework for Mitigating Hallucination in Multi-source Retrieval Augmented Generation

2508.03553v1 cs.IR, cs.CL 2025-08-09
Авторы:

Wenlong Wu, Haofen Wang, Bohan Li, Peixuan Huang, Xinzhe Zhao, Lei Liang

Резюме на русском

Одной из основных проблем в области Retrieval Augmented Generation (RAG) является эксплуатация ложной информации (hallucination), которая может усиливаться при использовании множества источников знаний. MultiRAG — это новая архитектура, разработанная для решения этой проблемы. Она вводит два ключевых модуля: (1) **Module для построения знаний**, который использует multi-source line graphs для эффективного агрегации логических связей между различными источниками знаний, и (2) **Sophisticated retrieval module**, реализующий многоуровневую механику вычисления достоверности, которая оценивает объекты на уровне графа и узлов, чтобы идентифицировать и исключить недостоверные данные. Эксперименты на 4 многодоменных запросах и 2 многошаговых датасетах показали, что MultiRAG эффективно улучшает надежность и эффективность знаний в многоисточниковых сценариях, снижая эффекты hallucination. Наш код доступен по ссылке: https://github.com/wuwenlong123/MultiRAG.

Abstract

Retrieval Augmented Generation (RAG) has emerged as a promising solution to address hallucination issues in Large Language Models (LLMs). However, the integration of multiple retrieval sources, while potentially more informative, introduces new challenges that can paradoxically exacerbate hallucination problems. These challenges manifest primarily in two aspects: the sparse distribution of multi-source data that hinders the capture of logical relationships and the inherent inconsistencies among different sources that lead to information conflicts. To address these challenges, we propose MultiRAG, a novel framework designed to mitigate hallucination in multi-source retrieval-augmented generation through knowledge-guided approaches. Our framework introduces two key innovations: (1) a knowledge construction module that employs multi-source line graphs to efficiently aggregate logical relationships across different knowledge sources, effectively addressing the sparse data distribution issue; and (2) a sophisticated retrieval module that implements a multi-level confidence calculation mechanism, performing both graph-level and node-level assessments to identify and eliminate unreliable information nodes, thereby reducing hallucinations caused by inter-source inconsistencies. Extensive experiments on four multi-domain query datasets and two multi-hop QA datasets demonstrate that MultiRAG significantly enhances the reliability and efficiency of knowledge retrieval in complex multi-source scenarios. \textcolor{blue}{Our code is available in https://github.com/wuwenlong123/MultiRAG.

Ссылки и действия