Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning

2509.19090v2 cs.CV, cs.AI, cs.CL 2025-09-25
Авторы:

Guoxin Wang, Jun Zhao, Xinyi Liu, Yanbo Liu, Xuyang Cao, Chao Li, Zhuoyun Liu, Qintian Sun, Fangru Zhou, Haoqiang Xing, Zhenhong Yang

Резюме на русском

## Контекст Область медицинского искусственного интеллекта играет ключевую роль в современной клинической практике, где необходимо сочетание точной диагностики, эффективного лечения и объединенного подхода к клиническому обоснованию. Медицинские изображения являются важной источником информации, которая используется для диагностики, планирования лечения и принятия решений во время операций. Однако существующие модели часто ограничены в их области применения, требуют развития специализированных сетей и не могут обеспечить широкие возможности для клинического разума. Кроме того, появление больших языковых моделей и моделей мультимодальных систем показало мощь машинного здравого смысла и многозадачности. Тем не менее, реальные клинические задачи требуют уточненного зрения, взаимодействия мультимодальных моделей и цепочки мыслей при обосновании клинических решений. Было предложено Citrus-V — многомодальная модель фундаментальных задач медицинского искусственного интеллекта, которая объединяет анализ изображений, текстовый анализ и цепочку разума в одной системе. ## Метод Citrus-V является современной многомодальной моделью, которая объединяет понимание изображений и текста, а также имеет цепочку рассуждений как часть своей архитектуры. Модель предназначена для решения проблем, связанных с клиническим обоснованием, и включает в себя такие модули, как распознавание, сегментация и цепочка разума. Она использует универсальное обучение, которое позволяет обучать модель по разным видам задач: от распознавания объектов и сегментации зон интереса до текстового понимания и создания клинических отчетов. Citrus-V работает с помощью пиксельного уровня локализации лезионов, структурированного создания отчетов и инфекционного обоснования. Архитектура Citrus-V включает в себя модели представления языка, модели визуальных сетей и различные методы обучения, чтобы обеспечить точность и эффективность. ## Результаты Команда авторов провела многочисленные эксперименты, используя различные базы данных, чтобы протестировать модель Citrus-V. Она была проверена на таких задачах, как распознавание объектов, сегментация, текстовое понимание и клиническое обоснование. Результаты показали, что Citrus-V превосходит другие модели, включая специализированные сети и системы, которые используются для клинических задач. На основе открытых данных, команда показала, что Citrus-V обеспечивает лучшие результаты в плане точности, скорости и обобщаемости. Она также обеспечивает возможность точной локализации лезионов, автоматическо

Abstract

Medical imaging provides critical evidence for clinical diagnosis, treatment planning, and surgical decisions, yet most existing imaging models are narrowly focused and require multiple specialized networks, limiting their generalization. Although large-scale language and multimodal models exhibit strong reasoning and multi-task capabilities, real-world clinical applications demand precise visual grounding, multimodal integration, and chain-of-thought reasoning. We introduce Citrus-V, a multimodal medical foundation model that combines image analysis with textual reasoning. The model integrates detection, segmentation, and multimodal chain-of-thought reasoning, enabling pixel-level lesion localization, structured report generation, and physician-like diagnostic inference in a single framework. We propose a novel multimodal training approach and release a curated open-source data suite covering reasoning, detection, segmentation, and document understanding tasks. Evaluations demonstrate that Citrus-V outperforms existing open-source medical models and expert-level imaging systems across multiple benchmarks, delivering a unified pipeline from visual grounding to clinical reasoning and supporting precise lesion quantification, automated reporting, and reliable second opinions.

Ссылки и действия