QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

2508.05197v1 cs.AI, cs.CL, cs.CV 2025-08-09
Авторы:

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Retrieval-Augmented Generation (RAG) является передовым подходом в Multimodal Large Language Models (MLLMs), направленным на снижение риска галлюцинаций в процессе генерации ответов. Он дополняет модели внешним знанием, что делает его весьма эффективным для решения задач Knowledge-Intensive Visual Question Answering (VQA). Тем не менее, существующие методы RAG часто ограничены возможностями поиска, осуществляющегося либо в текстовой, либо в визуальной области, что ограничивает их способность обрабатывать сложные запросы, требующие мульти-хоп рассуждений или актуального фактического знания. В попытке решить эту проблему, авторы предлагают QA-Dragon, систему, оптимизированную для мультимодальных, много-хоп и много-турных задач Вопрос-Ответ. QA-Dragon предназначен для работы в сложных сценариях, где требуется комбинация текстовых и визуальных данных для построения точного ответа. Однако, сложность таких задач заключается в том, что традиционные методы поиска не всегда могут эффективно обрабатывать запросы, которые требуют контекстуального поиска в разных доменах. Дополнительным вызовом является необходимость в поиске решений, которые могут динамически адаптироваться к конкретным доменам запроса. Такие запросы могут включать в себя не только текстовые, но и визуальные компоненты, что делает необходимым создание системы, способной динамически выбирать оптимальные стратегии поиска в зависимости от характеристик запроса. ## ПРЕДЛОЖЕННЫЙ МЕТОД QA-Dragon представляет собой Query-Aware Dynamic RAG System, который построен на основе двух ключевых компонентов: **domain router** и **search router**. **Domain router** отвечает за определение домена запроса, что позволяет системе выполнять доменно-специфичное рассуждение. **Search router**, в свою очередь, динамически выбирает оптимальную стратегию поиска, в зависимости от характеристик запроса. Эти компоненты работают вместе, чтобы координировать поиск в текстовых и визуальных источниках, обеспечивая гибридную стратегию поиска. В основе QA-Dragon лежит модель, которая позволяет производить мультимодальное, много-хоп и много-турное рассуждение. Это достигается за счет использования гибридного подхода, который комбинирует текстовый и визуальный поиск. Такой подход позволяет системе эффективно обрабатывать запросы, которые требуют интеграции информации из разных источников для построения контекстуального и точного ответа. Кроме того, QA-Dragon включает в себя механизмы для адаптивного управления поиском, что позволяет ему быть более эффективным в решении сложных задач. Эта система также поддерживает много-турный поиск, что делает его пригодным для задач, требующих последовательного выявления информации из разных источников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ QA-Dragon был протестирован на Meta CRAG-MM Challenge в рамках KDD Cup 2025. Эксперименты показали значительное улучшение результатов по сравнению со стандартными подходами. Система показала рост точности ответов на 5.06% в задачах с одним источником, 6.35% в мульти-источниковых задачах и 5.03% в много-турных задачах. Эксперименты проводились на многомодальных данных, которые включали в себя как текстовые, так и визуальные компоненты. QA-Dragon продемонстрировал высокую эффективность в сложных сценариях, где требуется комбинация разных типов данных для построения точного ответа. Результаты экспериментов показали, что QA-Dragon не только повышает точность ответов, но и повышает качество рассуждений, основанных на внешнем знании. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ QA-Dragon имеет широкое применение в областях, требующих интеграции знаний из разных доменов для построения точных ответов на сложные запросы. Он может быть использован в различных приложениях, таких как поисковые системы, системы поддержки решений, и даже в областях медицинского и научного исследования, где необходима точная интеграция текстовых и визуальных данных. Одним из ключевых преимуществ QA-Dragon является его способность динамически адаптироваться к разным доменам и выбирать оптимальные стратегии поиска. Это делает его подходящим для решения задач, требующих контекстуального понимания и мультимодального поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ QA-Dragon представляет собой значительный шаг вперед в области Knowledge-Intensive Visual Question Answering. Он не только повышает точность ответов, но и позволяет системе эффективно обрабатывать сложные запросы, требующие мультимодального поиска. В будущем, этот подход может быть расширен для решения еще более сложных задач, включая те, где требуется еще большая интеграция информации из различных источников. Кроме того, QA-Dragon может быть адаптирован для работы в других областях, где необходимо обрабатывать мультимодальные данные, что делает этот подход весьма перспективным для дальнейшего развития.

Abstract

Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. To address this limitation, we propose QA-Dragon, a Query-Aware Dynamic RAG System for Knowledge-Intensive VQA. Specifically, QA-Dragon introduces a domain router to identify the query's subject domain for domain-specific reasoning, along with a search router that dynamically selects optimal retrieval strategies. By orchestrating both text and image search agents in a hybrid setup, our system supports multimodal, multi-turn, and multi-hop reasoning, enabling it to tackle complex VQA tasks effectively. We evaluate our QA-Dragon on the Meta CRAG-MM Challenge at KDD Cup 2025, where it significantly enhances the reasoning performance of base models under challenging scenarios. Our framework achieves substantial improvements in both answer accuracy and knowledge overlap scores, outperforming baselines by 5.06% on the single-source task, 6.35% on the multi-source task, and 5.03% on the multi-turn task.

Ссылки и действия