mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering
2508.05318v1
cs.CV, cs.AI
2025-08-09
Авторы:
Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последнее время Retrieval-Augmented Generation (RAG) стал ключевым подходом для расширения внутреннего знания Многомодальных Больших Языковых Моделей (МБЯМ) путем интеграции внешних баз знаний в процесс генерации, что широко применяется в задачах Знаний-ориентированного Ответа на Вопросы с Изображениями (VQA). Несмотря на значительные достижения в этой области, традиционные методы RAG, основанные на неструктурированных документах, часто игнорируют структурные отношения между элементами знаний. Это приводит к возникновению неуместной или вводящей в заблуждение информации, что снижает точность и надежность ответов.
Данная проблема особенно актуальна в контексте задач VQA, где точность ответов критически важна. Неспособность существующих методов эффективно обрабатывать структурированные отношения между различными модальностями (такими как текст и изображения) является ключевой проблемой. Кроме того, многие существующие подходы не могут эффективно интегрировать многомодальные знания в процесс генерации, что ограничивает их применимость в реальных сценариях.
В связи с этим возникает потребность в разработке новых методологий, которые могут эффективно интегрировать структурированные многомодальные знания в RAG-based VQA системы для улучшения точности и надежности ответов.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В этой работе авторы предлагают новый метод mKG-RAG, основанный на многомодальных знаниях для улучшения задач VQA. Основная идея заключается в интеграции многомодальных графов знаний (multimodal KGs) в RAG-based VQA фреймворк для обеспечения более точной и структурированной генерации ответов.
mKG-RAG использует модели Многомодальных Больших Языковых Моделей (MLLM) для извлечения ключевых слов и оптимизации соответствия текста и изображений. Этот процесс позволяет выделить семантически согласованные и модальностью-алгоритмически оптимизированные сущности и отношения из многомодальных документов. Затем эти сущности и отношения используются для построения высококачественных многомодальных графов знаний (KGs), которые служат структурированным представлением знаний.
Кроме того, авторы предлагают двухступенчатую стратегию извлечения, оснащенную вопрос-зависимым многомодальным ретриевером (question-aware multimodal retriever). Эта стратегия позволяет улучшить эффективность извлечения информации и повысить точность получаемых результатов. Этот метод также обеспечивает более точное сопоставление вопроса с соответствующими элементами знаний в многомодальном графе.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели комплексные эксперименты для оценки эффективности mKG-RAG по сравнению с существующими методами. Были использованы различные наборы данных для задач VQA, которые включали как текстовую, так и визуальную информацию. Результаты экспериментов показали, что mKG-RAG значительно превосходит существующие методы показателями точности и надежности ответов.
В частности, mKG-RAG показал лучшие результаты в условиях, где вопросы требовали интеграции знаний из различных модальностей. Двухступенчатая стратегия извлечения также показала свою эффективность в обеспечении высокой точности поиска и извлечения релевантных элементов знаний.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
mKG-RAG имеет широкие возможности применения в реальных сценариях, где критически важна точность ответов на вопросы, основанные на многомодальных данных. Этот метод может быть использован в различных областях, таких как медицинские диагностики, системы поддержки решений, интеллектуальные помощники, и других приложениях, требующих интеграции структурированных многомодальных знаний.
Основными преимуществами mKG-RAG является его способность обрабатывать сложные взаимосвязи между различными модальностями знаний, что позволяет получать более точные и релевантные ответы. Это может существенно повысить эффективность и надежность систем, основанных на VQA, в различных прикладных областях.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В работе был предложен новый метод mKG-RAG, который интегрирует многомодальные графы знаний в RAG-based VQA фреймворк для улучшения точности и надежности ответов. Эксперименты показали, что этот метод значительно превосходит существующие подходы в задачах VQA.
В будущем могут быть исследованы другие способы улучшения mKG-RAG, такие как интеграция дополнительных модальностей знаний, улучшение моделей извлечения и генерации, а также применение этого подхода к другим типам задач, требующих интеграции многомодальных знаний.
Abstract
Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand
internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating
external knowledge databases into the generation process, which is widely used
for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive
advancements, vanilla RAG-based VQA methods that rely on unstructured documents
and overlook the structural relationships among knowledge elements frequently
introduce irrelevant or misleading content, reducing answer accuracy and
reliability. To overcome these challenges, a promising solution is to integrate
multimodal knowledge graphs (KGs) into RAG-based VQA frameworks to enhance the
generation by introducing structured multimodal knowledge. Therefore, in this
paper, we propose a novel multimodal knowledge-augmented generation framework
(mKG-RAG) based on multimodal KGs for knowledge-intensive VQA tasks.
Specifically, our approach leverages MLLM-powered keyword extraction and
vision-text matching to distill semantically consistent and modality-aligned
entities/relationships from multimodal documents, constructing high-quality
multimodal KGs as structured knowledge representations. In addition, a
dual-stage retrieval strategy equipped with a question-aware multimodal
retriever is introduced to improve retrieval efficiency while refining
precision. Comprehensive experiments demonstrate that our approach
significantly outperforms existing methods, setting a new state-of-the-art for
knowledge-based VQA.
Ссылки и действия
Дополнительные ресурсы: