📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance

2025-09-10

Авторы:

Mohamed Mohamed, Brennan Nichyporuk, Douglas L. Arnold, Tal Arbel

#### Контекст Визуальные-языковые модели показали впечатляющие возможности генерировать 2D-изображения в различных условиях, но это возможно в большей степени благодаря имеющимся подготовленным моделям-основам. Однако в 3D-домене подобные модели очень ограничены, что ограничивает потенциал визуально-языковых моделей в генерировании высококачественных 3D-изображений. Это особенно важно в медицинской области, где требуется точное трехмерное моделирование, например, для исследования нервной системы. Несмотря на важность этих задач, пока не было достигнуто значительного прогресса в создании 3D-систем, которые бы могли генерировать индивидуальные медицинские изображения на основе естественного языка. Такие модели позволяли бы, например, исследовать здоровье мозга с разными медицинскими условиями или симулировать прогрессирование заболеваний. Наша работа сделала основной шаг к реализации этой цели, разрабатывая фреймворк для 3D-генерирования высококачественных 3D-изображений, нацеленных на синтезированных пациентов, используя свободную форму естественного языка. #### Метод Мы создали фреймворк, который расширяет современные 3D-диффузионные модели, используя подходы из Simple Diffusion и улучшения условий текста. Эта модель использует 3D-объекты для генерирования 3D-изображений, что требует большой точности для представления трехмерной структуры мозга. Мы также внедрили усовершенствованные методы для повышения корреляции между текстом и изображением, чтобы гарантировать точность в гипотетических ситуациях. Наша модель учитывает требования к высокому разрешению и подробности для обеспечения фидбека о клиническом исходе. Мы проверили ее на двух наборах данных, связанных с неврологией, включая данные о МС и Алцгеймере. Это позволило проверить модель на ситуациях синтеза симптомов и воспроизведения характеристик разных состояний. #### Результаты Мы проверили наш фреймворк на двух наборах данных, описывающих неврологические заболевания. Наши результаты показали, что модель может генерировать высококачественные 3D-изображения, в которых видны различные степени лесенок (Multiple Sclerosis) и разные уровни выздравствования (Alzheimer's). Кроме того, модель сохраняет точность в представлении лиц и трехмерной структуры мозга. Это доказывает возможность модели для генерации надежной 3D-информации для визуализации медицинских условий и анализа их прогрессии. #### Значимость Наша модель открывает новые перспективы в области медицины, включая персонализированные модели для прогнозировани

Annotation:

Vision-language models have demonstrated impressive capabilities in generating 2D images under various conditions; however the impressive performance of these models in 2D is largely enabled by extensive, readily available pretrained foundation models. Critically, comparable pretrained foundation models do not exist for 3D, significantly limiting progress in this domain. As a result, the potential of vision-language models to produce high-resolution 3D counterfactual medical images conditioned s...

ID: 2509.05978v1 eess.IV, cs.CL, cs.CV, cs.LG

arXiv PDF