Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering

2508.12036v1 cs.CV, cs.AI 2025-08-19
Авторы:

Rakesh Thakur, Yusra Tariq

Резюме на русском

## Контекст Одной из основных проблем в сфере здравоохранения является сложность решения клинических вопросов, требующих одновременного понимания изображений и текста. Это влечет за собой необходимость создания моделей, которые могут эффективно обрабатывать и комбинировать данные из разных источников для получения точных и понятных ответов. Особый интерес представляет область медицинской визуальной вопросно-ответной системы (Visual Question Answering, VQA), где задача состоит в том, чтобы правильно интерпретировать медицинские изображения и сочетать их с текстовыми данными для точных ответов. Несмотря на прогресс в искусственном интеллекте, существуют сложности в обеспечении высокой точности и объяснимости решений, особенно при работе с большими данными. Модели Q-FSRU (Quantum-Augmented Frequency-Spectral Fusion) нацелены на решение этих проблем, объединяя техники выражения частотного спектра и квантовый подход к вопросам и ответам. ## Метод Q-FSRU представляет собой совмещение двух основных подходов: **Frequency Spectrum Representation and Fusion (FSRU)** и **Quantum Retrieval-Augmented Generation (Quantum RAG)**. FSRU включает в себя преобразование изображений и текстовых данных в частотный спектр с помощью Fast Fourier Transform (FFT). Это позволяет модели сосредоточиться на смысловых частях данных, игнорируя шум. Quantum RAG добавляет квантовую технику для поиска информации в медицинских источниках, используя технологии схожести на основе квантовых методов. Таким образом, модель объединяет частотные данные с квантовыми выводами, чтобы обеспечить точные и поддерживаемые знаниями ответы. Эта архитектура обеспечивает обоснованность ответов и повышает их качество, в то же время увеличивая уровень объяснимости. ## Результаты Модель Q-FSRU была опробована на датасете VQA-RAD, который содержит медицинские изображения и вопросы из реальных клинических ситуаций. Эксперименты показали, что Q-FSRU превосходит существующие модели в решении сложных задач, требующих комбинации изображений и текстов для получения ответа. Особенно выдающиеся результаты были получены при решении вопросов, требующих высокого уровня разбора и различения между сущностями на изображениях. Модель также показала значительные улучшения в объяснимости решений, что является критическим для применения в медицине. Эти результаты указывают на эффективность Q-FSRU в сочетании частотных и квантовых техник для построения надежной и понятной AI-системы для медицинского применения. ## Значимость Q-FSRU может применяться в различных областях медицины, например, в радиологии, диагностике и мониторинге заболеваний. Её преимущества включают высокую точность, квантовую обеспеченность для повышения

Abstract

Solving tough clinical questions that require both image and text understanding is still a major challenge in healthcare AI. In this work, we propose Q-FSRU, a new model that combines Frequency Spectrum Representation and Fusion (FSRU) with a method called Quantum Retrieval-Augmented Generation (Quantum RAG) for medical Visual Question Answering (VQA). The model takes in features from medical images and related text, then shifts them into the frequency domain using Fast Fourier Transform (FFT). This helps it focus on more meaningful data and filter out noise or less useful information. To improve accuracy and ensure that answers are based on real knowledge, we add a quantum-inspired retrieval system. It fetches useful medical facts from external sources using quantum-based similarity techniques. These details are then merged with the frequency-based features for stronger reasoning. We evaluated our model using the VQA-RAD dataset, which includes real radiology images and questions. The results showed that Q-FSRU outperforms earlier models, especially on complex cases needing image-text reasoning. The mix of frequency and quantum information improves both performance and explainability. Overall, this approach offers a promising way to build smart, clear, and helpful AI tools for doctors.

Ссылки и действия