mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

2508.05318v1 cs.CV, cs.AI 2025-08-09

Авторы:

Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Retrieval-Augmented Generation (RAG) стал ключевым подходом для расширения внутреннего знания Многомодальных Больших Языковых Моделей (МБЯМ) путем интеграции внешних баз знаний в процесс генерации, что широко применяется в задачах Знаний-ориентированного Ответа на Вопросы с Изображениями (VQA). Несмотря на значительные достижения в этой области, традиционные методы RAG, основанные на неструктурированных документах, часто игнорируют структурные отношения между элементами знаний. Это приводит к возникновению неуместной или вводящей в заблуждение информации, что снижает точность и надежность ответов. Данная проблема особенно актуальна в контексте задач VQA, где точность ответов критически важна. Неспособность существующих методов эффективно обрабатывать структурированные отношения между различными модальностями (такими как текст и изображения) является ключевой проблемой. Кроме того, многие существующие подходы не могут эффективно интегрировать многомодальные знания в процесс генерации, что ограничивает их применимость в реальных сценариях. В связи с этим возникает потребность в разработке новых методологий, которые могут эффективно интегрировать структурированные многомодальные знания в RAG-based VQA системы для улучшения точности и надежности ответов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе авторы предлагают новый метод mKG-RAG, основанный на многомодальных знаниях для улучшения задач VQA. Основная идея заключается в интеграции многомодальных графов знаний (multimodal KGs) в RAG-based VQA фреймворк для обеспечения более точной и структурированной генерации ответов. mKG-RAG использует модели Многомодальных Больших Языковых Моделей (MLLM) для извлечения ключевых слов и оптимизации соответствия текста и изображений. Этот процесс позволяет выделить семантически согласованные и модальностью-алгоритмически оптимизированные сущности и отношения из многомодальных документов. Затем эти сущности и отношения используются для построения высококачественных многомодальных графов знаний (KGs), которые служат структурированным представлением знаний. Кроме того, авторы предлагают двухступенчатую стратегию извлечения, оснащенную вопрос-зависимым многомодальным ретриевером (question-aware multimodal retriever). Эта стратегия позволяет улучшить эффективность извлечения информации и повысить точность получаемых результатов. Этот метод также обеспечивает более точное сопоставление вопроса с соответствующими элементами знаний в многомодальном графе. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексные эксперименты для оценки эффективности mKG-RAG по сравнению с существующими методами. Были использованы различные наборы данных для задач VQA, которые включали как текстовую, так и визуальную информацию. Результаты экспериментов показали, что mKG-RAG значительно превосходит существующие методы показателями точности и надежности ответов. В частности, mKG-RAG показал лучшие результаты в условиях, где вопросы требовали интеграции знаний из различных модальностей. Двухступенчатая стратегия извлечения также показала свою эффективность в обеспечении высокой точности поиска и извлечения релевантных элементов знаний. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ mKG-RAG имеет широкие возможности применения в реальных сценариях, где критически важна точность ответов на вопросы, основанные на многомодальных данных. Этот метод может быть использован в различных областях, таких как медицинские диагностики, системы поддержки решений, интеллектуальные помощники, и других приложениях, требующих интеграции структурированных многомодальных знаний. Основными преимуществами mKG-RAG является его способность обрабатывать сложные взаимосвязи между различными модальностями знаний, что позволяет получать более точные и релевантные ответы. Это может существенно повысить эффективность и надежность систем, основанных на VQA, в различных прикладных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод mKG-RAG, который интегрирует многомодальные графы знаний в RAG-based VQA фреймворк для улучшения точности и надежности ответов. Эксперименты показали, что этот метод значительно превосходит существующие подходы в задачах VQA. В будущем могут быть исследованы другие способы улучшения mKG-RAG, такие как интеграция дополнительных модальностей знаний, улучшение моделей извлечения и генерации, а также применение этого подхода к другим типам задач, требующих интеграции многомодальных знаний.

Abstract

Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating external knowledge databases into the generation process, which is widely used for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive advancements, vanilla RAG-based VQA methods that rely on unstructured documents and overlook the structural relationships among knowledge elements frequently introduce irrelevant or misleading content, reducing answer accuracy and reliability. To overcome these challenges, a promising solution is to integrate multimodal knowledge graphs (KGs) into RAG-based VQA frameworks to enhance the generation by introducing structured multimodal knowledge. Therefore, in this paper, we propose a novel multimodal knowledge-augmented generation framework (mKG-RAG) based on multimodal KGs for knowledge-intensive VQA tasks. Specifically, our approach leverages MLLM-powered keyword extraction and vision-text matching to distill semantically consistent and modality-aligned entities/relationships from multimodal documents, constructing high-quality multimodal KGs as structured knowledge representations. In addition, a dual-stage retrieval strategy equipped with a question-aware multimodal retriever is introduced to improve retrieval efficiency while refining precision. Comprehensive experiments demonstrate that our approach significantly outperforms existing methods, setting a new state-of-the-art for knowledge-based VQA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация