Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance

2509.05978v1 eess.IV, cs.CL, cs.CV, cs.LG 2025-09-10
Авторы:

Mohamed Mohamed, Brennan Nichyporuk, Douglas L. Arnold, Tal Arbel

Резюме на русском

#### Контекст Визуальные-языковые модели показали впечатляющие возможности генерировать 2D-изображения в различных условиях, но это возможно в большей степени благодаря имеющимся подготовленным моделям-основам. Однако в 3D-домене подобные модели очень ограничены, что ограничивает потенциал визуально-языковых моделей в генерировании высококачественных 3D-изображений. Это особенно важно в медицинской области, где требуется точное трехмерное моделирование, например, для исследования нервной системы. Несмотря на важность этих задач, пока не было достигнуто значительного прогресса в создании 3D-систем, которые бы могли генерировать индивидуальные медицинские изображения на основе естественного языка. Такие модели позволяли бы, например, исследовать здоровье мозга с разными медицинскими условиями или симулировать прогрессирование заболеваний. Наша работа сделала основной шаг к реализации этой цели, разрабатывая фреймворк для 3D-генерирования высококачественных 3D-изображений, нацеленных на синтезированных пациентов, используя свободную форму естественного языка. #### Метод Мы создали фреймворк, который расширяет современные 3D-диффузионные модели, используя подходы из Simple Diffusion и улучшения условий текста. Эта модель использует 3D-объекты для генерирования 3D-изображений, что требует большой точности для представления трехмерной структуры мозга. Мы также внедрили усовершенствованные методы для повышения корреляции между текстом и изображением, чтобы гарантировать точность в гипотетических ситуациях. Наша модель учитывает требования к высокому разрешению и подробности для обеспечения фидбека о клиническом исходе. Мы проверили ее на двух наборах данных, связанных с неврологией, включая данные о МС и Алцгеймере. Это позволило проверить модель на ситуациях синтеза симптомов и воспроизведения характеристик разных состояний. #### Результаты Мы проверили наш фреймворк на двух наборах данных, описывающих неврологические заболевания. Наши результаты показали, что модель может генерировать высококачественные 3D-изображения, в которых видны различные степени лесенок (Multiple Sclerosis) и разные уровни выздравствования (Alzheimer's). Кроме того, модель сохраняет точность в представлении лиц и трехмерной структуры мозга. Это доказывает возможность модели для генерации надежной 3D-информации для визуализации медицинских условий и анализа их прогрессии. #### Значимость Наша модель открывает новые перспективы в области медицины, включая персонализированные модели для прогнозировани

Abstract

Vision-language models have demonstrated impressive capabilities in generating 2D images under various conditions; however the impressive performance of these models in 2D is largely enabled by extensive, readily available pretrained foundation models. Critically, comparable pretrained foundation models do not exist for 3D, significantly limiting progress in this domain. As a result, the potential of vision-language models to produce high-resolution 3D counterfactual medical images conditioned solely on natural language descriptions remains completely unexplored. Addressing this gap would enable powerful clinical and research applications, such as personalized counterfactual explanations, simulation of disease progression scenarios, and enhanced medical training by visualizing hypothetical medical conditions in realistic detail. Our work takes a meaningful step toward addressing this challenge by introducing a framework capable of generating high-resolution 3D counterfactual medical images of synthesized patients guided by free-form language prompts. We adapt state-of-the-art 3D diffusion models with enhancements from Simple Diffusion and incorporate augmented conditioning to improve text alignment and image quality. To our knowledge, this represents the first demonstration of a language-guided native-3D diffusion model applied specifically to neurological imaging data, where faithful three-dimensional modeling is essential to represent the brain's three-dimensional structure. Through results on two distinct neurological MRI datasets, our framework successfully simulates varying counterfactual lesion loads in Multiple Sclerosis (MS), and cognitive states in Alzheimer's disease, generating high-quality images while preserving subject fidelity in synthetically generated medical images. Our results lay the groundwork for prompt-driven disease progression analysis within 3D medical imaging.

Ссылки и действия