## КОНТЕКСТ И ПРОБЛЕМАТИКА
Retrieval-Augmented Generation (RAG) является передовым подходом в Multimodal Large Language Models (MLLMs), направленным на снижение риска галлюцинаций в процессе генерации ответов. Он дополняет модели внешним знанием, что делает его весьма эффективным для решения задач Knowledge-Intensive Visual Question Answering (VQA). Тем не менее, существующие методы RAG часто ограничены возможностями поиска, осуществляющегося либо в текстовой, либо в визуальной области, что ограничивает их способность обрабатывать сложные запросы, требующие мульти-хоп рассуждений или актуального фактического знания.
В попытке решить эту проблему, авторы предлагают QA-Dragon, систему, оптимизированную для мультимодальных, много-хоп и много-турных задач Вопрос-Ответ. QA-Dragon предназначен для работы в сложных сценариях, где требуется комбинация текстовых и визуальных данных для построения точного ответа. Однако, сложность таких задач заключается в том, что традиционные методы поиска не всегда могут эффективно обрабатывать запросы, которые требуют контекстуального поиска в разных доменах.
Дополнительным вызовом является необходимость в поиске решений, которые могут динамически адаптироваться к конкретным доменам запроса. Такие запросы могут включать в себя не только текстовые, но и визуальные компоненты, что делает необходимым создание системы, способной динамически выбирать оптимальные стратегии поиска в зависимости от характеристик запроса.
## ПРЕДЛОЖЕННЫЙ МЕТОД
QA-Dragon представляет собой Query-Aware Dynamic RAG System, который построен на основе двух ключевых компонентов: **domain router** и **search router**. **Domain router** отвечает за определение домена запроса, что позволяет системе выполнять доменно-специфичное рассуждение. **Search router**, в свою очередь, динамически выбирает оптимальную стратегию поиска, в зависимости от характеристик запроса. Эти компоненты работают вместе, чтобы координировать поиск в текстовых и визуальных источниках, обеспечивая гибридную стратегию поиска.
В основе QA-Dragon лежит модель, которая позволяет производить мультимодальное, много-хоп и много-турное рассуждение. Это достигается за счет использования гибридного подхода, который комбинирует текстовый и визуальный поиск. Такой подход позволяет системе эффективно обрабатывать запросы, которые требуют интеграции информации из разных источников для построения контекстуального и точного ответа.
Кроме того, QA-Dragon включает в себя механизмы для адаптивного управления поиском, что позволяет ему быть более эффективным в решении сложных задач. Эта система также поддерживает много-турный поиск, что делает его пригодным для задач, требующих последовательного выявления информации из разных источников.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
QA-Dragon был протестирован на Meta CRAG-MM Challenge в рамках KDD Cup 2025. Эксперименты показали значительное улучшение результатов по сравнению со стандартными подходами. Система показала рост точности ответов на 5.06% в задачах с одним источником, 6.35% в мульти-источниковых задачах и 5.03% в много-турных задачах.
Эксперименты проводились на многомодальных данных, которые включали в себя как текстовые, так и визуальные компоненты. QA-Dragon продемонстрировал высокую эффективность в сложных сценариях, где требуется комбинация разных типов данных для построения точного ответа. Результаты экспериментов показали, что QA-Dragon не только повышает точность ответов, но и повышает качество рассуждений, основанных на внешнем знании.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
QA-Dragon имеет широкое применение в областях, требующих интеграции знаний из разных доменов для построения точных ответов на сложные запросы. Он может быть использован в различных приложениях, таких как поисковые системы, системы поддержки решений, и даже в областях медицинского и научного исследования, где необходима точная интеграция текстовых и визуальных данных.
Одним из ключевых преимуществ QA-Dragon является его способность динамически адаптироваться к разным доменам и выбирать оптимальные стратегии поиска. Это делает его подходящим для решения задач, требующих контекстуального понимания и мультимодального поиска.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
QA-Dragon представляет собой значительный шаг вперед в области Knowledge-Intensive Visual Question Answering. Он не только повышает точность ответов, но и позволяет системе эффективно обрабатывать сложные запросы, требующие мультимодального поиска. В будущем, этот подход может быть расширен для решения еще более сложных задач, включая те, где требуется еще большая интеграция информации из различных источников.
Кроме того, QA-Dragon может быть адаптирован для работы в других областях, где необходимо обрабатывать мультимодальные данные, что делает этот подход весьма перспективным для дальнейшего развития.