Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning
2509.19090v2
cs.CV, cs.AI, cs.CL
2025-09-25
Авторы:
Guoxin Wang, Jun Zhao, Xinyi Liu, Yanbo Liu, Xuyang Cao, Chao Li, Zhuoyun Liu, Qintian Sun, Fangru Zhou, Haoqiang Xing, Zhenhong Yang
Резюме на русском
## Контекст
Область медицинского искусственного интеллекта играет ключевую роль в современной клинической практике, где необходимо сочетание точной диагностики, эффективного лечения и объединенного подхода к клиническому обоснованию. Медицинские изображения являются важной источником информации, которая используется для диагностики, планирования лечения и принятия решений во время операций. Однако существующие модели часто ограничены в их области применения, требуют развития специализированных сетей и не могут обеспечить широкие возможности для клинического разума. Кроме того, появление больших языковых моделей и моделей мультимодальных систем показало мощь машинного здравого смысла и многозадачности. Тем не менее, реальные клинические задачи требуют уточненного зрения, взаимодействия мультимодальных моделей и цепочки мыслей при обосновании клинических решений. Было предложено Citrus-V — многомодальная модель фундаментальных задач медицинского искусственного интеллекта, которая объединяет анализ изображений, текстовый анализ и цепочку разума в одной системе.
## Метод
Citrus-V является современной многомодальной моделью, которая объединяет понимание изображений и текста, а также имеет цепочку рассуждений как часть своей архитектуры. Модель предназначена для решения проблем, связанных с клиническим обоснованием, и включает в себя такие модули, как распознавание, сегментация и цепочка разума. Она использует универсальное обучение, которое позволяет обучать модель по разным видам задач: от распознавания объектов и сегментации зон интереса до текстового понимания и создания клинических отчетов. Citrus-V работает с помощью пиксельного уровня локализации лезионов, структурированного создания отчетов и инфекционного обоснования. Архитектура Citrus-V включает в себя модели представления языка, модели визуальных сетей и различные методы обучения, чтобы обеспечить точность и эффективность.
## Результаты
Команда авторов провела многочисленные эксперименты, используя различные базы данных, чтобы протестировать модель Citrus-V. Она была проверена на таких задачах, как распознавание объектов, сегментация, текстовое понимание и клиническое обоснование. Результаты показали, что Citrus-V превосходит другие модели, включая специализированные сети и системы, которые используются для клинических задач. На основе открытых данных, команда показала, что Citrus-V обеспечивает лучшие результаты в плане точности, скорости и обобщаемости. Она также обеспечивает возможность точной локализации лезионов, автоматическо
Abstract
Medical imaging provides critical evidence for clinical diagnosis, treatment
planning, and surgical decisions, yet most existing imaging models are narrowly
focused and require multiple specialized networks, limiting their
generalization. Although large-scale language and multimodal models exhibit
strong reasoning and multi-task capabilities, real-world clinical applications
demand precise visual grounding, multimodal integration, and chain-of-thought
reasoning. We introduce Citrus-V, a multimodal medical foundation model that
combines image analysis with textual reasoning. The model integrates detection,
segmentation, and multimodal chain-of-thought reasoning, enabling pixel-level
lesion localization, structured report generation, and physician-like
diagnostic inference in a single framework. We propose a novel multimodal
training approach and release a curated open-source data suite covering
reasoning, detection, segmentation, and document understanding tasks.
Evaluations demonstrate that Citrus-V outperforms existing open-source medical
models and expert-level imaging systems across multiple benchmarks, delivering
a unified pipeline from visual grounding to clinical reasoning and supporting
precise lesion quantification, automated reporting, and reliable second
opinions.
Ссылки и действия
Дополнительные ресурсы: