KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering
2509.04716v1
cs.CL, cs.AI, cs.IR
2025-09-09
Авторы:
Yushi Sun, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen
Резюме на русском
## Контекст
Во времена распространения Large Language Models (LLMs) возникла проблема "hallucination" — ситуаций, когда модели генерируют неверные или неподтвержденные ответы. Это ограничивает применение LLMs в задачах типа Question Answering (QA). Одним из решений этой проблемы является Retrieval-Augmented Generation (RAG), который использует внешние источники данных для повышения точности. Классические Knowledge Graph Question Answering (KGQA) методы ограничены полнотой ответов из-за строгого схемопостроения и семантической неоднозначности. Наша модель KERAG использует Knowledge Graphs (KGs) для улучшения полноты и точности ответов на вопросы, а также для уменьшения шумов в процессе генерации.
## Метод
KERAG — это усовершенствованный RAG-подход, который повышает полноту ответов за счет более широкого восприятия внешних источников. Мы предлагаем трёхэтапную архитектуру: **поиск**, **фильтрацию** и **суммирование**. В **поиске** используется широкий поиск по узлам и ребрам знаний в KG, что позволяет захватить более широкий контекст. **Фильтрация** отсеивает шумы, не относящиеся к данному вопросу. В **суммировании** используется цепочка-мысли (Chain-of-Thought) для построения решения. Эта цепочка-мысли применяется к выделенным подграфам в KG, подходящим под вопрос. Таким образом, мы улучшаем точность и полноту ответов, уменьшая шумы и неверные утверждения.
## Результаты
Мы проверяли KERAG на нескольких наборах данных, включая сложные и простые вопросы. Наша модель показала **7% более высокое качество ответов** по сравнению с состоянием технологии. В параллельных экспериментах с GPT-4o (Tool), KERAG показал **10-21% выигрыш** в качестве ответов. Мы также использовали наборы данных с различными степенями сложности, включая тексты с сильным наклоном семантики. Эксперименты подтвердили, что KERAG эффективен в обработке обоих типов вопросов.
## Значимость
KERAG может применяться в различных областях, включая вопросы финансового анализа, медицины, технического тестирования и других областей, где точность и полнота ответов критична. Этот подход позволяет LLMs более эффективно использовать внешние знания, уменьшая ошибки и увеличивая доверие пользователей. Будущие исследования будут сфокусированы на улучшении обработки текстов с большой семантической сложностью и расширении поддерживаемых типов вопросов.
## Выводы
KERAG расширяет технологию RAG, улучшая полноту и точность ответов на вопросы. Мы показали, что наша модель превосходит конкуренты на 7% и GPT-4o (Tool) на 10-21%. Этот подход может использоваться в различных областях и повышает доверие к LLM-моделям, повышая точность и полноту ответов на вопрос
Abstract
Retrieval-Augmented Generation (RAG) mitigates hallucination in Large
Language Models (LLMs) by incorporating external data, with Knowledge Graphs
(KGs) offering crucial information for question answering. Traditional
Knowledge Graph Question Answering (KGQA) methods rely on semantic parsing,
which typically retrieves knowledge strictly necessary for answer generation,
thus often suffer from low coverage due to rigid schema requirements and
semantic ambiguity. We present KERAG, a novel KG-based RAG pipeline that
enhances QA coverage by retrieving a broader subgraph likely to contain
relevant information. Our retrieval-filtering-summarization approach, combined
with fine-tuned LLMs for Chain-of-Thought reasoning on knowledge sub-graphs,
reduces noises and improves QA for both simple and complex questions.
Experiments demonstrate that KERAG surpasses state-of-the-art solutions by
about 7% in quality and exceeds GPT-4o (Tool) by 10-21%.
Ссылки и действия
Дополнительные ресурсы: