📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Anisotropic Fourier Features for Positional Encoding in Medical Imaging

2025-09-05

Авторы:

Nabil Jabareen, Dongsheng Yuan, Dingming Liu, Foo-Wei Ten, Sören Lukassen

#### Контекст Трансформер-подобные архитектуры находят все более широкое применение в медицинской области, особенно в области медицинской иммуграфии, где необходимо анализировать сложные формы, такие как органы, ткани или другие анатомические структуры. Однако адаптация этих архитектур к медицинским задачам сталкивается с рядом проблем. В частности, медицинские изображения часто обладают анизотропным характером, что означает, что размеры и характеристики различных структур могут существенно различаться в разных направлениях. Это создает сложности при применении общих позиционных кодирований (PE), которые часто используются в трансформерах. Кроме того, обычные линейные кодирования, такие как sinusoidal Positional Encodings (SPEs), хотя и показали высокую эффективность в визуальных задачах, не всегда успешно захватывают геометрические отношения в многомерных пространствах. Эти проблемы приводят к потере точности в результатах и неэффективности моделей. В данном исследовании мы сосредоточились на этих проблемах и предложили решение, которое учитывает анизотропию в медицинских изображениях. #### Метод Мы предложили **Anisotropic Fourier Feature Positional Encoding (AFPE)**, который является расширением Isotropic Fourier Feature Positional Encodings (IFPE) и учитывает анизотропию в изображениях. В отличие от IFPE, AFPE включает в себя анизотропные, класс-зависимые и домен-зависимые зависимости пространства. Методология AFPE основывается на расширении Fourier Features и их интеграции с трансформером для позиционного кодирования. Мы разработали математическую модель, позволяющую учитывать отношения длины в разных направлениях в пространстве изображения. Это позволяет нашей модели лучше адаптироваться к характеристикам медицинских изображений, которые часто обладают сильно анизотропным характером. Мы также использовали методы кросс-валидации и эксперименты на реальных данных, чтобы проверить эффективность нашей модели. #### Результаты Мы проверили AFPE на нескольких задачах в медицинской иммуграфии: классификации многомерных медицинских изображений (например, классификации легких на X-образцах), классификации органов на CT-сканах и регрессию эффективности сердечного отката (ejection fraction) на изображениях эхокардиографии. Мы сравнили AFPE с другими позиционными кодированиями, включая sinusoidal Positional Encodings (SPEs) и isotropic Fourier Feature Positional Encodings (IFPE). Наши результаты показали, что AFPE значительно выигрывает в решении задач в анизотропных условиях, где другие позиционные кодирования показывали снижение производительности. Кроме того, мы выявили, что в зависимости от формы объектов в изображении и их анизотропии, лучшую модель можно по

Annotation:

The adoption of Transformer-based architectures in the medical domain is growing rapidly. In medical imaging, the analysis of complex shapes - such as organs, tissues, or other anatomical structures - combined with the often anisotropic nature of high-dimensional images complicates these adaptations. In this study, we critically examine the role of Positional Encodings (PEs), arguing that commonly used approaches may be suboptimal for the specific challenges of medical imaging. Sinusoidal Positi...

ID: 2509.02488v1 cs.CV, cs.LG

arXiv PDF

📄 Toward a robust lesion detection model in breast DCE-MRI: adapting foundation models to high-risk women

2025-09-05

Авторы:

Gabriel A. B. do Nascimento, Vincent Dong, Guilherme J. Cavalcante, Alex Nguyen, Thaís G. do Rêgo, Yuri Malheiros, Telmo M. Silva Filho, Carla R. Zeballos Torrez, James C. Gee, Anne Marie McCarthy, Andrew D. A. Maidment, Bruno Barufaldi

## Контекст Малоинвазивные методы диагностики рака молочной железы, такие как ДКЭ-МРТ, играют ключевую роль в раннем выявлении онкологических заболеваний. Однако обеспечение высокой точности в данном контексте связано с рядом проблем. Несбалансированные и разнообразные клинические данные, а также необходимость интерпретируемых и надежных моделей делают задачу выявления неоднородных объектов сложной. Имеющиеся подходы часто страдают от отсутствия общей гибкости и недостаточной подробности в анализе. Модели требуются, которые могут обрабатывать большие объемы данных, поддерживать интерпретируемость и обеспечивать высокую точность в разных условиях. ## Метод Предложена архитектура сверточного пайплайна, объединяющая эффективные технологии основных моделей и гибкие способы классификации. Базовой моделью стала Medical Slice Transformer (MST), обученная с использованием DINOv2 для самостоятельного обучения. MST генерирует высококачественные описательные признаки для каждого срезов магнитно-резонансной импеданси. Эти признаки подаются на вход в Kolmogorov--Arnold Network (KAN), которая использует адаптивные B-сплайны для локализованного преобразования признаков. Это дает модели гибкость в обработке сложностей неоднородных данных. Результаты обучения используются для создания интерпретируемых тепловых карт, позволяющих визуализировать участки входных изображений, которые были ключевыми для принятия решений. ## Результаты Использованы ДКЭ-МРТ данные, полученные в рамках клинических исследований. Модель MST+KAN протестирована на выборках с разным уровнем неравенства классов и разнообразием клинических данных. Полученные результаты показали, что модель достигает AUC = 0.80 ± 0.02 при классификации бенинных и малигонных образов. Это существенно превышает результаты базовой модели MST. Также были получены тепловые карты, которые акцентируют внимание на важных частях изображений, повышая прозрачность модели. ## Значимость Предложенный подход может быть применен в различных ситуациях диагностики, где требуется раннее и точное выявление рака молочной железы. Он предоставляет значительные преимущества, включая высокую точность и интерпретируемость, что является критически важной особенностью для клинического применения. Этот подход может способствовать улучшению качества здравоохранения, особенно для высокорисковой группы пациенток, обеспечивая доступность и надежность диагностических средств. ## Выводы Модель MST+KAN доказала свою эффективность в области выявления неоднородных и сильно небалансированных клинических д

Annotation:

Accurate breast MRI lesion detection is critical for early cancer diagnosis, especially in high-risk populations. We present a classification pipeline that adapts a pretrained foundation model, the Medical Slice Transformer (MST), for breast lesion classification using dynamic contrast-enhanced MRI (DCE-MRI). Leveraging DINOv2-based self-supervised pretraining, MST generates robust per-slice feature embeddings, which are then used to train a Kolmogorov--Arnold Network (KAN) classifier. The KAN p...

ID: 2509.02710v1 physics.med-ph, cs.CV, cs.LG

arXiv PDF

📄 Multi-Scale Deep Learning for Colon Histopathology: A Hybrid Graph-Transformer Approach

2025-09-05

Авторы:

Sadra Saremi, Amirhossein Ahmadkhan Kordbacheh

## Контекст Колоректальный рак (рак кишечника и ректала) является одной из наиболее злокачественных форм рака в мире. Основной приоритет в борьбе с этим заболеванием является раннее выявление, так как это существенно повышает шансы на успешное лечение. Существующие методы диагностики часто страдают от недостатка точности или требуют долгого времени для оценки образцов. Это сподвигло развитие методов автоматической классификации, которые могут обрабатывать большие объемы данных и обеспечивать более точные прогнозы. В этом контексте предлагается новая гибридная многомерная структура, которая объединяет мощь трансформерных моделей и сверточных нейронных сетей. Целью является повышение точности диагностики и улучшение понимания структуры и отношений в изображениях гистопатологии. ## Метод Предлагаемая модель, названная **HG-TNet**, является гибридной структурой, которая объединяет сильные стороны трансформеров и сверточных нейронных сетей. Модель включает две основные сети: 1. **Transformer Branch**: Основная цель этой ветви — получить глобальные контекстные связи, используя разбиение изображения на патчи с помощью конвертирования патчей с помощью сверточных элементов. Эти патчи обрабатываются в контекстно-зависимой модели трансформера. 2. **CNN Branch**: Данная ветвь фокусируется на локальных деталях изображения, используя последовательный анализ в несколько слоев сверток. Кроме того, в модели включена целевая подсистема самостоятельного обучения на основе предсказания поворота изображений. Эта особенность позволяет модели сохранять пространственные отношения и учитывать отдельный вклад каждого элемента в создании общей структуры. ## Результаты Модель была тренирована и протестирована на базе выборки **LC25000** — датасета изображений гистопатологии колоректального рака. На экспериментальных задачах классификации сравнили количество ошибок, точность и потери. Результаты показали, что **HG-TNet** превосходит стандартные архитектуры по всем метрикам. Специальное внимание было уделено пространственной структуре изображений. **Capsule Networks**, интегрированные в модель, позволили улучшить восприятие составляющих частей изображения и их интеракции в целом. ## Значимость Новая модель может быть применена в автоматической диагностике и мониторинге колоректального рака, обеспечивая более точные результаты и уменьшая время оценки. Гибридная архитектура обеспечивает более глубокое понимание изображений и может быть распространена на другие задачи медицинской изображейной обработки. ## Выводы Результаты эк

Annotation:

Colon cancer also known as Colorectal cancer, is one of the most malignant types of cancer worldwide. Early-stage detection of colon cancer is highly crucial to prevent its deterioration. This research presents a hybrid multi-scale deep learning architecture that synergizes capsule networks, graph attention mechanisms, transformer modules, and residual learning to advance colon cancer classification on the Lung and Colon Cancer Histopathological Image Dataset (LC25000) dataset. The proposed mode...

ID: 2509.02851v1 cs.CV, cs.LG

arXiv PDF

📄 A Data-Driven RetinaNet Model for Small Object Detection in Aerial Images

2025-09-05

Авторы:

Zhicheng Tang, Jinwen Tang, Yi Shang

## Контекст Область исследования анализа аэрофотоснимков широко применяется в различных сферах, таких как экология, строительство, транспорт и безопасность. Однако одной из сложностей в этой области является точное обнаружение малых объектов, таких как машины, пешеходы или животные, которые играют ключевую роль в различных приложениях, таких как мониторинг диких животных, оптимизация транспортного сетки и обеспечение безопасности граждан. Существующие модели часто сталкиваются с проблемами, такими как неэффективность при обнаружении малых объектов, высокие затраты на сбор и тренировку данных, а также недостаточная точность в условиях ограниченных данных. Мотивирует разработку новых моделей, которые могут адресовать эти проблемы и улучшить производительность в области обнаружения малых объектов на аэрофотоснимках. ## Метод Модель DDR-Net, предложенная в данной работе, является расширением модели RetinaNet и включает в себя несколько инновационных техник. Модель использует автоматическое определение оптимальных функциональных пространств и анкоров для улучшения точности обнаружения малых объектов. Для повышения эффективности в условиях ограниченных данных разработана новая техника семплирования данных. Архитектура DDR-Net основана на дийн-глубоких нейронных сетях, что позволяет обеспечить высокую точность при оптимальном использовании ресурсов. Эти методы способствуют более эффективной обработке аэрофотоснимков, даже при условии ограниченного объема тренировочных данных. ## Результаты Наборы данных, использованные в экспериментах, включали различные аэрофотоснимки, в том числе съемки с различных высот и разрешений. Эксперименты показали, что DDR-Net превосходит RetinaNet и другие современные модели в задаче обнаружения малых объектов на аэрофотоснимках. Модель достигла более высокой точности и меньшей ошибки нарушения, даже при небольших объемах тренировочных данных. Это демонстрирует эффективность DDR-Net в условиях ограниченных ресурсов. Также был проведен анализ того, как модель работает в различных сценариях, таких как мониторинг диких животных и оптимизация транспортной системы. ## Значимость Результаты DDR-Net имеют широкие применения в сферах, таких как экология, транспорт, безопасность и археология. Например, модель может быть использована для мониторинга диких животных, трассировки транспортных потоков и оптимизации городских строительных проектов. Благодаря своей высокой точности и эффективности в условиях ограниченных данных, DDR-Net обеспечивает экономию времени и ресурсов в процессе обучения и применения

Annotation:

In the realm of aerial imaging, the ability to detect small objects is pivotal for a myriad of applications, encompassing environmental surveillance, urban design, and crisis management. Leveraging RetinaNet, this work unveils DDR-Net: a data-driven, deep-learning model devised to enhance the detection of diminutive objects. DDR-Net introduces novel, data-driven techniques to autonomously ascertain optimal feature maps and anchor estimations, cultivating a tailored and proficient training proces...

ID: 2509.02928v1 cs.CV, cs.LG

arXiv PDF

📄 TRELLIS-Enhanced Surface Features for Comprehensive Intracranial Aneurysm Analysis

2025-09-05

Авторы:

Clément Hervé, Paul Garnier, Jonathan Viquerat, Elie Hachem

#### Контекст Intracranial аневризмы представляют серьезную клиническую проблему из-за их высокой рисковости и трудности в определении, делении и моделировании. Ограниченность аннотированных 3D-данных затрудняет использование стандартных методов машинного обучения. Это вызывает необходимость в разработке новых подходов для эффективного анализа таких аневризм. #### Метод Предложен метод, основанный на передаче кросс-доменных признаков, который использует TRELLIS — генерирующую модель, обученную на больших объемах немаедицинских 3D-данных. TRELLIS вырабатывает геометрические признаки, которые включаются в нейронные сети для улучшения решения трех задач: классификация аневризм и здоровых сосудов, сегментация поверхностей аневризм и сосудов, а также прогнозирование временных потоков крови с помощью графовых нейронных сетей. #### Результаты Исследования проводились на данных Intra3D и AnXplore. Такие признаки, вставленные в нейронные сети, показали существенный прирост точности, F1-меры и качества сегментации по сравнению с современными базовыми алгоритмами. Также был снижен ошибка моделирования на 15% в задаче прогнозирования потоков крови. #### Значимость Предложенный подход может использоваться в медицинских задачах, где активно применяются 3D-данные. Он обеспечивает значительные улучшения в точности и качестве решений, а также открывает пути для многочисленных других применений с генерирующими моделями в сфере медицины. #### Выводы Результаты постоянно подтверждают продвижение метода передачи признаков в области медицинских задач. Будущие исследования будут направлены на расширение метода на другие задачи и улучшение производительности.

Annotation:

Intracranial aneurysms pose a significant clinical risk yet are difficult to detect, delineate and model due to limited annotated 3D data. We propose a cross-domain feature-transfer approach that leverages the latent geometric embeddings learned by TRELLIS, a generative model trained on large-scale non-medical 3D datasets, to augment neural networks for aneurysm analysis. By replacing conventional point normals or mesh descriptors with TRELLIS surface features, we systematically enhance three do...

ID: 2509.03095v1 cs.CV, cs.LG

arXiv PDF

📄 Temporally-Aware Diffusion Model for Brain Progression Modelling with Bidirectional Temporal Regularisation

2025-09-05

Авторы:

Mattia Litrico, Francesco Guarnera, Mario Valerio Giuffrida, Daniele Ravì, Sebastiano Battiato

#### Контекст Оценка прогрессирования зрения во времени ключ к пониманию механизмов болезней мозга и к раннему выявлению клинических симптомов. Однако существующие методы страдают недостатками: некоторые не могут явно отобразить связь между изменениями структуры мозга и промежутками времени, особенно при обучении на несбалансированных по возрасту данных; другие ограничиваются интерполяцией сканов, что лишает результаты клинической полезности, так как фокусируются на интерполяции между временными точками, а не на прогнозировании будущих заболевательных изменений; многие полагаются на 2D-архитектуры, вынесенные из контекста 3D-анатомического объема, что снижает точность прогнозов. Мы предлагаем 3D-модель Temporally-Aware Diffusion Model (TADM-3D), которая сочетает развитые методы распределения с временной регуляризацией для точного моделирования прогрессирования мозга. #### Метод TADM-3D основывается на 3D-архитектуре Diffusion Model, которая использует 2D-слайсы для базового обучения, но позволяет создавать 3D-результаты. Мы вводим **предварительно обученный Brain-Age Estimator (BAE)**, который помогает модели учитывать временную зависимость между базовым и прогностическим сканом. Для усиления временной ориентации намного мы предлагаем **Back-In-Time Regularisation (BITR)**, в которой модель обучается предсказывать как вперед (от базового к прогностическому скану), так и назад (от прогностического к базовому скану). Хотя предсказание прошлых сканов имеет ограниченное клиническое значение, этот подход улучшает общую природу времени модели. Данные для обучения получены из OASIS-3, а внешний тестовый набор — из NACC. #### Результаты Мы проверяем TADM-3D на OASIS-3 и NACC, сравнивая её с трёх лучших альтернативных моделей. Модель TADM-3D показывает значительное улучшение в точности предсказания временных изменений мозга в сравнении с конкурентами. Бинарная оценка F1-меры показала, что TADM-3D даёт лучший результат на 15% по сравнению с базовой Diffusion Model'ой. Также мы проводим визуальный анализ результатов, показывающий, что модель способна генерировать реалистичные сканы с видимым прогрессом болезни. #### Значимость Предлагаемый подход имеет широкое применение в аспектах клинической диагностики, например в мониторинге заболеваний головного мозга, таких как альцгеймерская болезнь. В отличие от существующих методов, TADM-3D предоставляет более точные предсказания временных изменений, что повышает клиническую ценность. Кроме того, внедрение BITR в модель позволяет снизить ошибки в представлении времени, улучшить генерацию сканов и увеличить их клиническую релевантность. #### Вывод

Annotation:

Generating realistic MRIs to accurately predict future changes in the structure of brain is an invaluable tool for clinicians in assessing clinical outcomes and analysing the disease progression at the patient level. However, current existing methods present some limitations: (i) some approaches fail to explicitly capture the relationship between structural changes and time intervals, especially when trained on age-imbalanced datasets; (ii) others rely only on scan interpolation, which lack clin...

ID: 2509.03141v1 cs.CV, cs.LG

arXiv PDF

📄 Count2Density: Crowd Density Estimation without Location-level Annotations

2025-09-05

Авторы:

Mattia Litrico, Feng Chen, Michael Pound, Sotirios A Tsaftaris, Sebastiano Battiato, Mario Valerio Giuffrida

## Контекст Crowd density estimation — это один из важнейших вопросов в области компьютерного зрения, который применяется в различных сферах, включая безопасность, управление трафиком и городской планировку. Несмотря на прогресс в этой области, большинство существующих подходов требуют точных местонахождений объектов в качестве входных данных для обучения моделей. Это сделано необходимым из-за необходимости научить модели выделять и отслеживать отдельных людей. Однако получение таких данных требует значительных усилий и ресурсов, что приводит к затруднениям при масштабировании для реальных сценариев. Многие методы, пытающиеся обойти эту проблему, оказались неэффективными или слишком специфичными для конкретных задач. Наша мотивация заключается в разработке метода, который позволит получить качественные результаты в crowd density estimation без требования мелких местонахождений каждого объекта. ## Метод Мы предлагаем Count2Density — методику, которая позволяет оценивать плотность толпы на основе только счетных данных (то есть, количества людей в области). Наш подход основывается на использовании **Historical Map Bank** (HMB), который хранит прошлые предсказания модели в виде карт плотности. Для получения псевдо-карт плотности, мы используем **Hypergeometric Distribution**, чтобы выбирать случайные точки внутри областей, оцененных как плотные. Кроме того, мы добавили **Self-Supervised Contrastive Spatial Regulariser**, чтобы улучшить способность модели различать области с высокой плотностью от фоновых регионов. Этапы обучения включают начальную инициализацию HMB с помощью **Unsupervised Saliency Estimator** и его последующую итеративную обновление с помощью **Exponential Moving Average (EMA)** предсказанных карт плотности. ## Результаты Мы провели эксперименты на нескольких выборках данных, включая **ShanghaiTech**, **UCF-QNRF** и **JHU-Crowd++**. Наши результаты показали, что Count2Density не только превосходит другие подходы, требующие менее точных данных, но и выигрывает в параметрах F1-score и Mean Absolute Error (MAE) в сравнении с современными лучшими решениями. Эксперименты также продемонстрировали, что каждая составляющая нашего подхода (например, HMB и Spatial Regulariser) имеет существенное влияние на конечные результаты. ## Значимость Наш подход имеет значительный потенциал в реальных приложениях, таких как системы мониторинга толп, системы безопасности и управление трафиком. Он устраняет необходимость в трудоемкой сборке точных данных для обучения, что делает его более удобным и эффективным для реального применения. Мы также показали, что наш подход может быть расширен для задач, требующих оценки плотности в различных условиях, включая движущиеся толпы и различные среды. ## Выводы Мы представили Count2Density — новый подход

Annotation:

Crowd density estimation is a well-known computer vision task aimed at estimating the density distribution of people in an image. The main challenge in this domain is the reliance on fine-grained location-level annotations, (i.e. points placed on top of each individual) to train deep networks. Collecting such detailed annotations is both tedious, time-consuming, and poses a significant barrier to scalability for real-world applications. To alleviate this burden, we present Count2Density: a novel...

ID: 2509.03170v1 cs.CV, cs.LG

arXiv PDF

📄 Deep Self-knowledge Distillation: A hierarchical supervised learning for coronary artery segmentation

2025-09-05

Авторы:

Mingfeng Lin

#### Контекст Коронарная артерия — ключевой элемент легких систем кровообращения. Моделирование и анализ коронарных артерий являются важными задачами в медицинской инженерии и искусственном интеллекте. Автоматическая сегментация коронарных артерий на X-рентропических изображениях является трудоемкой и неэффективной задачей, которая может быть улучшена с помощью автоматизированных моделей. Однако, существующие методы, включая правила-основанные и модели глубокого обучения, сталкиваются с проблемами слабой точности, ограниченной общимостью и неэффективностью передачи знаний. Эти проблемы ограничивают полную эффективность моделей в клиническом применении. #### Метод Для решения этих проблем предложен метод Deep Self-knowledge Distillation, основанный на новых техниках глубокого обучения. Метод использует Deep Distribution Loss для регулирования глобального распределения выходных данных модели и Pixel-wise Self-knowledge Distillation Loss для регулирования локального пиксельного распределения. Эта модель основывается на структуре двух уровней: глубокий теачер-модель (teacher model) и студент-модель (student model). Теачер-модель генерирует вектора распределения в глубине, а student-модель использует пиксель-уровневые научные знания для детализированного моделирования. Это решение обеспечивает двойное терморегулирование модели, что увеличивает ее обобщаемость и устойчивость. #### Результаты Многочисленные эксперименты проводились на двух датасетах: XCAD и DCA1. Модель Deep Self-knowledge Distillation показала лучшие результаты по таким метрикам, как Dice Coefficient, Accuracy, Sensitivity и IoU, в сравнении с другими моделями. Этот результат свидетельствует о том, что подход Deep Self-knowledge Distillation позволяет повысить точность, универсальность и эффективность модели в сегментации коронарных артерий. #### Значимость Данный подход может быть применен в клинической практике для улучшения точности диагноза коронарной артерии, а также в области искусственного интеллекта для развития моделей обучения на основе знаний. Особый потенциал заключается в том, что модель Deep Self-knowledge Distillation позволяет повысить общимость и точность моделей, а также предоставить новые возможности для дальнейшего исследования моделей глубокого обучения в медицинских задачах. #### Выводы Метод Deep Self-knowledge Distillation задает новый шаг в развитии моделей глубокого обучения для сегментации коронарных артерий. В будущем, подход может быть расширен для решения других задач медицинского анализа изображений, а также для повышения общимости моделей глубокого обучения в различных сегментационных задачах.

Annotation:

Coronary artery disease is a leading cause of mortality, underscoring the critical importance of precise diagnosis through X-ray angiography. Manual coronary artery segmentation from these images is time-consuming and inefficient, prompting the development of automated models. However, existing methods, whether rule-based or deep learning models, struggle with issues like poor performance and limited generalizability. Moreover, current knowledge distillation methods applied in this field have no...

ID: 2509.03173v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Scalable and Loosely-Coupled Multimodal Deep Learning for Breast Cancer Subtyping

2025-09-05

Авторы:

Mohammed Amer, Mohamed A. Suliman, Tu Bui, Nuria Garcia, Serban Georgescu

## Контекст Здравоохранение — это широкомасштабная и многоаспектная область, где внедрение различных данных способствует усовершенствованию клинических задач. Одной из важнейших задач является мультимодальное морфологическое подтипирование раков груди, которое играет ключевую роль в формировании персонализированных тактик лечения и улучшении прогноза болезни. Несмотря на возможности интеграции многообразных данных, таких как копийное вариационное изменение (CNV), клинические записи и истории лабораторных исследований, недостаточное использование таких моделей приводит к ограниченным результатам. В настоящей работе предлагается многомодальный подход, который адаптируется к различным клиническим условиям и может легко расширяться на другие виды рака. ## Метод Предложенный подход основывается на многомодальной нейронной сети, которая использует различные модели для разных типов данных. Для изображений гистопатологических примеров (WSIs) была разработана двойная архитектура, сочетающая традиционные изображения с графом WSI. Это позволяет усилить информативность модели за счет объединения визуальных паттернов и структурных связей. Для комбинации модальностей вводится стратегия мультимодального слияния, которая позволяет гибко адаптироваться к различным видам клинических данных. Была также разработана система, которая просто и эффективно может масштабироваться для работы с новыми модальностями без требования к переувеличению модели. ## Результаты Использовались данные с различных уровней молекулярных подтипов рака груди, основываясь на CNV, клинических записях и гистопатологических изображениях. Модель была тестирована на разных кросс-валидациях, сравнивая результаты с современными методами. Наблюдался значительный выигрыш в точности и уменьшение ошибки по сравнению с текущими методами. Добавление новых модальностей не требует переувеличения модели, что делает процесс более эффективным и гибким. ## Значимость Предложенная модель может быть применена в различных клинических задачах, включая диагностику и молекулярное подтипирование рака. Универсальная архитектура, подходящая для различных модальностей, обеспечивает гибкость и масштабируемость. Этот подход может повысить точность диагноза и помочь в формировании персонализированных тактик лечения, что в конечном счете способствует улучшению прогноза для пациентов. ## Выводы Мультимодальный подход, основанный на двойной архитектуре WSI, комбинации CNV и клинических данных, показал выдающиеся результаты в морфологическом подтипировании рака груди. Будущие исследования буду

Annotation:

Healthcare applications are inherently multimodal, benefiting greatly from the integration of diverse data sources. However, the modalities available in clinical settings can vary across different locations and patients. A key area that stands to gain from multimodal integration is breast cancer molecular subtyping, an important clinical task that can facilitate personalized treatment and improve patient prognosis. In this work, we propose a scalable and loosely-coupled multimodal framework that...

ID: 2509.03408v1 cs.CV, cs.LG

arXiv PDF

📄 Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation

2025-09-05

Авторы:

Yizhe Zhang, Qiang Chen, Tao Zhou

#### Контекст Современные технологии сегментации медицинских изображений обладают высокой точностью, но часто ориентированы на конкретные задачи, включая сегментацию полипов, ретинальных сосудов и грудных ганглионов. Эти специализированные модели достигают высоких результатов, но не всегда могут обеспечивать универсальное использование в различных задачах. Увеличение сложности задачи может привести к потере точности и уменьшению модели модели, что делает ее менее эффективной. В этом контексте возникает вопрос о потенциале общего назначения в области медицинских изображений, который мог бы установить модели для широкого круга задач. #### Метод Для оценки силы и слабых сторон общего назначения в медицинской сегментации изображений был проведен компаративный анализ. Авторы использовали современную общего назначения модель Gemini 2.5 Pro (также известную как Nano Banana) и сравнили ее с результатами специализированных моделей на задачах сегментации полипов, ретинальных сосудов и грудных ганглионов. Особое внимание было уделено к сценариям со зеро-шотом, когда модели отрабатывают без предварительного обучения на конкретных задачах. Для экспериментов были выделены самые простые и самые сложные случаи, определяемые точностью специализированных моделей. #### Результаты Результаты показали, что на простых случаях специализированные модели показали лучшую точность. Например, в сегментации ретинальных сосудов и полипов специалисты показали себя лучше. Однако на сложных случаях, когда специалисты могут провалиться, omnimodel Gemini 2.5 Pro стабильно демонстрирует высокую точность. Это связано с возможностью модели обрабатывать разнообразие данных и понимать трудные случаи, в которых специалисты терпят неудачу. Также были выявлены ситуации, в которых omnimodel имеет более точное восприятие анатомических фигур, чем специалисты. #### Значимость Эта работа открывает новые перспективы для использования общего назначения моделей в медицинских задачах. Они могут использоваться в качестве средств для усиления робастности моделей, особенно для выполнения сложных задач. Также их можно использовать для генерации анатомических данных, когда специалисты не могут это сделать. Это улучшает целостность медицинских изображений и может повысить точность диагностики. #### Выводы На основе проведенного анализа можно сделать вывод, что omnimodel может значительно повысить робастность системы, особенно на сложных случаях. Однако они еще не могут заменить специалисты во всех случаях. Будущие исследования будут направлены на улучшение точности и развитие моделей, которые сочетают

Annotation:

The emergence of powerful, general-purpose omnimodels capable of processing diverse data modalities has raised a critical question: can these ``jack-of-all-trades'' systems perform on par with highly specialized models in knowledge-intensive domains? This work investigates this question within the high-stakes field of medical image segmentation. We conduct a comparative study analyzing the zero-shot performance of a state-of-the-art omnimodel (Gemini 2.5 Pro, the ``Nano Banana'' model) against d...

ID: 2509.00866v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

1
2
65
66
67
68
69
83
84

Показано 661 - 670 из 835 записей