MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction

2508.19319v1 eess.IV, cs.AI, cs.CV 2025-08-29
Авторы:

Pardis Moradbeiki, Nasser Ghadiri, Sayed Jalal Zahabi, Uffe Kock Wiil, Kristoffer Kittelmann Brockhattingen, Ali Ebrahimi

Резюме на русском

## Контекст Sarcopenia, определяемая как заболевание, связанное с уменьшением мышечной массы, силы и функциональных возможностей, является важной медицинской проблемой, особенно среди пожилых людей. Несмотря на важность диагностики sarcopenia, существуют значительные вызовы, включая недостаточность медицинских данных, трудности в интерпретации медицинских изображений и нехватка контекста в моделях машинного обучения. Эти ограничения приводят к неточности в диагностике и снижению качества здравоохранения. Для улучшения диагностического процесса необходимо развитие моделей, которые могут выполнять многоуровневую визуальную интерпретацию, обращаться к знаниям в области медицины и эффективно интегрировать все эти компоненты в процессе диагностики. ## Метод MedVQA-TREE — это современный мультимодальный фреймворк, который объединяет несколько мощных компонентов для диагностики sarcopenia. Во-первых, в модуле визуального анализа включена анатомическая классификация, региональная сегментация и граф-ориентированный специальный анализ, что позволяет понять координаты, масштабы и отношения различных частей изображения. Во-вторых, используется мощный механизм фузирования функций уровня признаков, который осуществляет селективную интеграцию визуальных данных с текстовыми запросами. Наконец, MedVQA-TREE включает в себя решение для знаний, основанное на UMLS, для доступа к клиническому контексту через PubMed и специализированную базу данных sarcopenia. Этот архитектурный подход обеспечивает глубокую интеграцию различных модалей данных и клинического контекста. ## Результаты На двух публичных датасетах (VQA-RAD и PathVQA) и пользовательском датасете sarcopenia показатели точности диагностики MedVQA-TREE составили до 99%, что превышает уровень точности предыдущих моделей на более чем 10%. Эти результаты свидетельствуют о мощности фреймворка MedVQA-TREE в сочетании многоуровневого визуального анализа, функционального фузирования признаков и глубоко интегрированного знания с клиническими данными. Это решение демонстрирует перспективу в глубокой интеграции различных модалей данных в медицинской практике. ## Значимость MedVQA-TREE может быть применено в различных областях здравоохранения, включая диагностику sarcopenia и других заболеваний, которые требуют точного визуального анализа и контекстной информации. Этот фреймворк обеспечивает более точное, сочетательное использование визуальных и текстовых данных, что включает в себя обращение к знаниям в области клиники и медицины. Это может повысить точность диагностики

Abstract

Accurate sarcopenia diagnosis via ultrasound remains challenging due to subtle imaging cues, limited labeled data, and the absence of clinical context in most models. We propose MedVQA-TREE, a multimodal framework that integrates a hierarchical image interpretation module, a gated feature-level fusion mechanism, and a novel multi-hop, multi-query retrieval strategy. The vision module includes anatomical classification, region segmentation, and graph-based spatial reasoning to capture coarse, mid-level, and fine-grained structures. A gated fusion mechanism selectively integrates visual features with textual queries, while clinical knowledge is retrieved through a UMLS-guided pipeline accessing PubMed and a sarcopenia-specific external knowledge base. MedVQA-TREE was trained and evaluated on two public MedVQA datasets (VQA-RAD and PathVQA) and a custom sarcopenia ultrasound dataset. The model achieved up to 99% diagnostic accuracy and outperformed previous state-of-the-art methods by over 10%. These results underscore the benefit of combining structured visual understanding with guided knowledge retrieval for effective AI-assisted diagnosis in sarcopenia.

Ссылки и действия