Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering

2508.11247v1 cs.CL, cs.AI 2025-08-19
Авторы:

Changjian Wang, Weihong Deng, Weili Guan, Quan Lu, Ning Jiang

Резюме на русском

#### Контекст Многошаговой вопросанию (Multi-hop Question Answering, MHQA) требуется интегрировать разнородную информацию из различных параграфов, чтобы вывести правильный ответ. Эта задача требует не только понимания текста, но и построения структуры связей между разными фрагментами информации. Существующие методы обычно опираются на крупномасштабные семантические схожести, но не учитывают тонкие связи между молекулярными фрагментами текста. Это приводит к неэффективности в решении MHQA, где необходима глубокая интеграция семантической и структурной информации. Наша мотивация состоит в том, чтобы разработать метод, который бы одновременно учитывал эти аспекты и повышал точность и эффективность решения MHQA. #### Метод Мы предлагаем новую методику под названием HGRAG (Hypergraph Retrieval-Augmented Generation), которая использует гиперграфы для перекрестной интеграции семантической и структурной информации. Гиперграф строится на основе сущностей, где тонкие сущности (например, слова и фразы) служат узлами, а более крупные фрагменты текста (параграфы) — гиперузлами. Мы использваем взаимосвязи между сущностями для построения структуры гиперграфа. Для поиска связанных фрагментов информации мы применяем специальный метод поиска в гиперграфе, который учитывает как тонкую семантическую схожесть, так и широкую структурную связность. Для того, чтобы обеспечить более точный вывод, мы дополнительно используем модуль для оптимизации результатов поиска, который улучшает как семантическую, так и структурную точность. #### Результаты Мы провести обширные эксперименты на популярных датасетах MHQA, включая HotpotQA и ComplexWebQuestions. Наши результаты показывают, что HGRAG превосходит текущие состояния техники по метрикам качества ответов (accuracy, F1-score). Также, наши реализации позволяют значительно ускорить процесс поиска связанных фрагментов — на 6 раз по сравнению с состоянием техники. Это демонстрирует эффективность нашего подхода в объединении тонкой и крупномасштабной информации. #### Значимость Метод HGRAG может быть применен в различных областях, где требуется понимание текста и интеграция многоуровневой информации, например, в системах ответа на вопросы, глубоком понимании текста, и системах моделирования сложных связей. Наш подход обеспечивает значительные преимущества, такие как улучшенное понимание связности информации и увеличенная точность в выводе ответов. Мы планируем дальнейшие исследования в направлении улучшения моделей гиперграфа и интеграции новых технологий для повышения эффективности и точности. #### Вывод

Abstract

Multi-hop question answering (MHQA) requires integrating knowledge scattered across multiple passages to derive the correct answer. Traditional retrieval-augmented generation (RAG) methods primarily focus on coarse-grained textual semantic similarity and ignore structural associations among dispersed knowledge, which limits their effectiveness in MHQA tasks. GraphRAG methods address this by leveraging knowledge graphs (KGs) to capture structural associations, but they tend to overly rely on structural information and fine-grained word- or phrase-level retrieval, resulting in an underutilization of textual semantics. In this paper, we propose a novel RAG approach called HGRAG for MHQA that achieves cross-granularity integration of structural and semantic information via hypergraphs. Structurally, we construct an entity hypergraph where fine-grained entities serve as nodes and coarse-grained passages as hyperedges, and establish knowledge association through shared entities. Semantically, we design a hypergraph retrieval method that integrates fine-grained entity similarity and coarse-grained passage similarity via hypergraph diffusion. Finally, we employ a retrieval enhancement module, which further refines the retrieved results both semantically and structurally, to obtain the most relevant passages as context for answer generation with the LLM. Experimental results on benchmark datasets demonstrate that our approach outperforms state-of-the-art methods in QA performance, and achieves a 6$\times$ speedup in retrieval efficiency.

Ссылки и действия