KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering

2509.04716v1 cs.CL, cs.AI, cs.IR 2025-09-09

Авторы:

Yushi Sun, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen

Резюме на русском

## Контекст Во времена распространения Large Language Models (LLMs) возникла проблема "hallucination" — ситуаций, когда модели генерируют неверные или неподтвержденные ответы. Это ограничивает применение LLMs в задачах типа Question Answering (QA). Одним из решений этой проблемы является Retrieval-Augmented Generation (RAG), который использует внешние источники данных для повышения точности. Классические Knowledge Graph Question Answering (KGQA) методы ограничены полнотой ответов из-за строгого схемопостроения и семантической неоднозначности. Наша модель KERAG использует Knowledge Graphs (KGs) для улучшения полноты и точности ответов на вопросы, а также для уменьшения шумов в процессе генерации. ## Метод KERAG — это усовершенствованный RAG-подход, который повышает полноту ответов за счет более широкого восприятия внешних источников. Мы предлагаем трёхэтапную архитектуру: **поиск**, **фильтрацию** и **суммирование**. В **поиске** используется широкий поиск по узлам и ребрам знаний в KG, что позволяет захватить более широкий контекст. **Фильтрация** отсеивает шумы, не относящиеся к данному вопросу. В **суммировании** используется цепочка-мысли (Chain-of-Thought) для построения решения. Эта цепочка-мысли применяется к выделенным подграфам в KG, подходящим под вопрос. Таким образом, мы улучшаем точность и полноту ответов, уменьшая шумы и неверные утверждения. ## Результаты Мы проверяли KERAG на нескольких наборах данных, включая сложные и простые вопросы. Наша модель показала **7% более высокое качество ответов** по сравнению с состоянием технологии. В параллельных экспериментах с GPT-4o (Tool), KERAG показал **10-21% выигрыш** в качестве ответов. Мы также использовали наборы данных с различными степенями сложности, включая тексты с сильным наклоном семантики. Эксперименты подтвердили, что KERAG эффективен в обработке обоих типов вопросов. ## Значимость KERAG может применяться в различных областях, включая вопросы финансового анализа, медицины, технического тестирования и других областей, где точность и полнота ответов критична. Этот подход позволяет LLMs более эффективно использовать внешние знания, уменьшая ошибки и увеличивая доверие пользователей. Будущие исследования будут сфокусированы на улучшении обработки текстов с большой семантической сложностью и расширении поддерживаемых типов вопросов. ## Выводы KERAG расширяет технологию RAG, улучшая полноту и точность ответов на вопросы. Мы показали, что наша модель превосходит конкуренты на 7% и GPT-4o (Tool) на 10-21%. Этот подход может использоваться в различных областях и повышает доверие к LLM-моделям, повышая точность и полноту ответов на вопрос

Abstract

Retrieval-Augmented Generation (RAG) mitigates hallucination in Large Language Models (LLMs) by incorporating external data, with Knowledge Graphs (KGs) offering crucial information for question answering. Traditional Knowledge Graph Question Answering (KGQA) methods rely on semantic parsing, which typically retrieves knowledge strictly necessary for answer generation, thus often suffer from low coverage due to rigid schema requirements and semantic ambiguity. We present KERAG, a novel KG-based RAG pipeline that enhances QA coverage by retrieving a broader subgraph likely to contain relevant information. Our retrieval-filtering-summarization approach, combined with fine-tuned LLMs for Chain-of-Thought reasoning on knowledge sub-graphs, reduces noises and improves QA for both simple and complex questions. Experiments demonstrate that KERAG surpasses state-of-the-art solutions by about 7% in quality and exceeds GPT-4o (Tool) by 10-21%.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ADORE: Autonomous Domain-Oriented Relevance Engine for E-commerce

Evidence-Guided Schema Normalization for Temporal Tabular Reasoning

SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Di...

Principled Context Engineering for RAG: Statistical Guarantees via Conformal Pre...

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Inform...

Навигация