MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction
2508.19319v1
eess.IV, cs.AI, cs.CV
2025-08-29
Авторы:
Pardis Moradbeiki, Nasser Ghadiri, Sayed Jalal Zahabi, Uffe Kock Wiil, Kristoffer Kittelmann Brockhattingen, Ali Ebrahimi
Резюме на русском
## Контекст
Sarcopenia, определяемая как заболевание, связанное с уменьшением мышечной массы, силы и функциональных возможностей, является важной медицинской проблемой, особенно среди пожилых людей. Несмотря на важность диагностики sarcopenia, существуют значительные вызовы, включая недостаточность медицинских данных, трудности в интерпретации медицинских изображений и нехватка контекста в моделях машинного обучения. Эти ограничения приводят к неточности в диагностике и снижению качества здравоохранения. Для улучшения диагностического процесса необходимо развитие моделей, которые могут выполнять многоуровневую визуальную интерпретацию, обращаться к знаниям в области медицины и эффективно интегрировать все эти компоненты в процессе диагностики.
## Метод
MedVQA-TREE — это современный мультимодальный фреймворк, который объединяет несколько мощных компонентов для диагностики sarcopenia. Во-первых, в модуле визуального анализа включена анатомическая классификация, региональная сегментация и граф-ориентированный специальный анализ, что позволяет понять координаты, масштабы и отношения различных частей изображения. Во-вторых, используется мощный механизм фузирования функций уровня признаков, который осуществляет селективную интеграцию визуальных данных с текстовыми запросами. Наконец, MedVQA-TREE включает в себя решение для знаний, основанное на UMLS, для доступа к клиническому контексту через PubMed и специализированную базу данных sarcopenia. Этот архитектурный подход обеспечивает глубокую интеграцию различных модалей данных и клинического контекста.
## Результаты
На двух публичных датасетах (VQA-RAD и PathVQA) и пользовательском датасете sarcopenia показатели точности диагностики MedVQA-TREE составили до 99%, что превышает уровень точности предыдущих моделей на более чем 10%. Эти результаты свидетельствуют о мощности фреймворка MedVQA-TREE в сочетании многоуровневого визуального анализа, функционального фузирования признаков и глубоко интегрированного знания с клиническими данными. Это решение демонстрирует перспективу в глубокой интеграции различных модалей данных в медицинской практике.
## Значимость
MedVQA-TREE может быть применено в различных областях здравоохранения, включая диагностику sarcopenia и других заболеваний, которые требуют точного визуального анализа и контекстной информации. Этот фреймворк обеспечивает более точное, сочетательное использование визуальных и текстовых данных, что включает в себя обращение к знаниям в области клиники и медицины. Это может повысить точность диагностики
Abstract
Accurate sarcopenia diagnosis via ultrasound remains challenging due to
subtle imaging cues, limited labeled data, and the absence of clinical context
in most models. We propose MedVQA-TREE, a multimodal framework that integrates
a hierarchical image interpretation module, a gated feature-level fusion
mechanism, and a novel multi-hop, multi-query retrieval strategy. The vision
module includes anatomical classification, region segmentation, and graph-based
spatial reasoning to capture coarse, mid-level, and fine-grained structures. A
gated fusion mechanism selectively integrates visual features with textual
queries, while clinical knowledge is retrieved through a UMLS-guided pipeline
accessing PubMed and a sarcopenia-specific external knowledge base. MedVQA-TREE
was trained and evaluated on two public MedVQA datasets (VQA-RAD and PathVQA)
and a custom sarcopenia ultrasound dataset. The model achieved up to 99%
diagnostic accuracy and outperformed previous state-of-the-art methods by over
10%. These results underscore the benefit of combining structured visual
understanding with guided knowledge retrieval for effective AI-assisted
diagnosis in sarcopenia.
Ссылки и действия
Дополнительные ресурсы: