Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations

2509.21249v1 cs.CV, cs.AI, cs.LG 2025-09-27

Авторы:

Zhijian Yang, Noel DSouza, Istvan Megyeri, Xiaojian Xu, Amin Honarmandi Shandiz, Farzin Haddadpour, Krisztian Koos, Laszlo Rusko, Emanuele Valeriano, Bharadwaj Swaninathan, Lei Wu, Parminder Bhatia, Taha Kass-Hout, Erhan Bas

Резюме на русском

## Контекст Магнитная резонансная импедансometrie (MRI) является ключевым медицинским исследованием, используемым в клинической диагностике и исследованиях. Однако сложность и гетерогенность MRI создают серьезные вызовы для автоматизированного анализа, особенно при стремлении к скейлируемым и широко применимым моделям машинного обучения. Несмотря на то, что фаундациональные модели полностью изменили области естественного языка и визуального понимания, их применение к MRI остается ограниченным из-за недостатка данных и ограниченного анатомического фокуса. Для решения этих проблем мы предлагаем Decipher-MR — модель, основанную на обучении с подкреплением статичной и текстовой связи для 3D MRI. ## Метод Decipher-MR обучается на большом датасете, состоящем из 200 000 MRI-серий, полученных из более чем 22 000 исследований, охватывающих различные анатомические регионы, последовательности и патологии. Модель включает в себя самостоятельное визуальное обучение и текстовое руководство отчетов, чтобы построить широко распространенные и выносливые представления. Для обеспечения эффективного применения в разных клинических задачах, Decipher-MR имеет модульный дизайн, позволяющий настроить легкие, задаче-специфические декодеры, привязанные к замороженному предварительно обученному энкодеру. ## Результаты Мы оценили Decipher-MR на широком спектре задач, включая классификацию заболеваний, прогноз демографических признаков, локализацию анатомии и кросс-модальный поиск. Модель показала значительные улучшения по сравнению с другими моделями фаундациональных моделей и задаче-специфическими подходами. Наши результаты подтверждают Decipher-MR как скейлируемую и универсальную фаундациональную модель для MRI, которая обеспечивает эффективное развитие в области клинической практики и исследований. ## Значимость Decipher-MR может применяться в различных клинических областях, включая диагностику заболеваний, прогнозирование демографических признаков и анатомическую локализацию. Его модульный дизайн позволяет легко адаптировать модель к различным задачам с минимальным вычислительным накладным расходом. Это делает Decipher-MR важной инструментом для ускорения развития AI в области MRI, обеспечивая точность и универсальность в работе с медицинскими изображениями. ## Выводы Decipher-MR устанавливает новые академические и практические стандарты для MRI-based AI. Наша модель демонстрирует высокую точность и универсальность в различных задачах клинического анализа. Будущие исследования будут сфокусированы на расширении Decipher-MR для более широких медицинских применений и его интеграции с другими моделями машин

Abstract

Magnetic Resonance Imaging (MRI) is a critical medical imaging modality in clinical diagnosis and research, yet its complexity and heterogeneity pose challenges for automated analysis, particularly in scalable and generalizable machine learning applications. While foundation models have revolutionized natural language and vision tasks, their application to MRI remains limited due to data scarcity and narrow anatomical focus. In this work, we present Decipher-MR, a 3D MRI-specific vision-language foundation model trained on a large-scale dataset comprising 200,000 MRI series from over 22,000 studies spanning diverse anatomical regions, sequences, and pathologies. Decipher-MR integrates self-supervised vision learning with report-guided text supervision to build robust, generalizable representations, enabling effective adaptation across broad applications. To enable robust and diverse clinical tasks with minimal computational overhead, Decipher-MR supports a modular design that enables tuning of lightweight, task-specific decoders attached to a frozen pretrained encoder. Following this setting, we evaluate Decipher-MR across diverse benchmarks including disease classification, demographic prediction, anatomical localization, and cross-modal retrieval, demonstrating consistent performance gains over existing foundation models and task-specific approaches. Our results establish Decipher-MR as a scalable and versatile foundation for MRI-based AI, facilitating efficient development across clinical and research domains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация