Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering
2508.11247v1
cs.CL, cs.AI
2025-08-19
Авторы:
Changjian Wang, Weihong Deng, Weili Guan, Quan Lu, Ning Jiang
Резюме на русском
#### Контекст
Многошаговой вопросанию (Multi-hop Question Answering, MHQA) требуется интегрировать разнородную информацию из различных параграфов, чтобы вывести правильный ответ. Эта задача требует не только понимания текста, но и построения структуры связей между разными фрагментами информации. Существующие методы обычно опираются на крупномасштабные семантические схожести, но не учитывают тонкие связи между молекулярными фрагментами текста. Это приводит к неэффективности в решении MHQA, где необходима глубокая интеграция семантической и структурной информации. Наша мотивация состоит в том, чтобы разработать метод, который бы одновременно учитывал эти аспекты и повышал точность и эффективность решения MHQA.
#### Метод
Мы предлагаем новую методику под названием HGRAG (Hypergraph Retrieval-Augmented Generation), которая использует гиперграфы для перекрестной интеграции семантической и структурной информации. Гиперграф строится на основе сущностей, где тонкие сущности (например, слова и фразы) служат узлами, а более крупные фрагменты текста (параграфы) — гиперузлами. Мы использваем взаимосвязи между сущностями для построения структуры гиперграфа. Для поиска связанных фрагментов информации мы применяем специальный метод поиска в гиперграфе, который учитывает как тонкую семантическую схожесть, так и широкую структурную связность. Для того, чтобы обеспечить более точный вывод, мы дополнительно используем модуль для оптимизации результатов поиска, который улучшает как семантическую, так и структурную точность.
#### Результаты
Мы провести обширные эксперименты на популярных датасетах MHQA, включая HotpotQA и ComplexWebQuestions. Наши результаты показывают, что HGRAG превосходит текущие состояния техники по метрикам качества ответов (accuracy, F1-score). Также, наши реализации позволяют значительно ускорить процесс поиска связанных фрагментов — на 6 раз по сравнению с состоянием техники. Это демонстрирует эффективность нашего подхода в объединении тонкой и крупномасштабной информации.
#### Значимость
Метод HGRAG может быть применен в различных областях, где требуется понимание текста и интеграция многоуровневой информации, например, в системах ответа на вопросы, глубоком понимании текста, и системах моделирования сложных связей. Наш подход обеспечивает значительные преимущества, такие как улучшенное понимание связности информации и увеличенная точность в выводе ответов. Мы планируем дальнейшие исследования в направлении улучшения моделей гиперграфа и интеграции новых технологий для повышения эффективности и точности.
#### Вывод
Abstract
Multi-hop question answering (MHQA) requires integrating knowledge scattered
across multiple passages to derive the correct answer. Traditional
retrieval-augmented generation (RAG) methods primarily focus on coarse-grained
textual semantic similarity and ignore structural associations among dispersed
knowledge, which limits their effectiveness in MHQA tasks. GraphRAG methods
address this by leveraging knowledge graphs (KGs) to capture structural
associations, but they tend to overly rely on structural information and
fine-grained word- or phrase-level retrieval, resulting in an underutilization
of textual semantics. In this paper, we propose a novel RAG approach called
HGRAG for MHQA that achieves cross-granularity integration of structural and
semantic information via hypergraphs. Structurally, we construct an entity
hypergraph where fine-grained entities serve as nodes and coarse-grained
passages as hyperedges, and establish knowledge association through shared
entities. Semantically, we design a hypergraph retrieval method that integrates
fine-grained entity similarity and coarse-grained passage similarity via
hypergraph diffusion. Finally, we employ a retrieval enhancement module, which
further refines the retrieved results both semantically and structurally, to
obtain the most relevant passages as context for answer generation with the
LLM. Experimental results on benchmark datasets demonstrate that our approach
outperforms state-of-the-art methods in QA performance, and achieves a
6$\times$ speedup in retrieval efficiency.
Ссылки и действия
Дополнительные ресурсы: