📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 HistoViT: Vision Transformer for Accurate and Scalable Histopathological Cancer Diagnosis

2025-08-19

Авторы:

Faisal Ahmed

#### Контекст Одним из ключевых вызовов в современной патологии является достижение точного и масштабируемого диагноза раковых заболеваний, особенно для таких малых групп симптомов, как молочной железы, простаты, костного и шейного миома. Эти раки часто проявляются сложной историей здоровья и выраженной индивидуальностью гистологических структур. Для решения этой проблемы требуется новая методология, которая могла бы обеспечить обширную аналитическую способность и стабильность в классификации. #### Метод Мы предлагаем новую модель глубокого обучения на основе Vision Transformer (ViT), адаптированную для классификации гистологических изображений. Основная идея заключается в использовании методологии разбиения изображений на мозаичные плитки, которые потом переводятся в тензоры PyTorch и нормализуются для соответствия архитектуре ViT. Это решение позволяет уменьшить сложность традиционных методов, улучшить стабильность обучения и повысить точность классификации. #### Результаты Мы проверили модель на четырьмя различными датасетами: ICIAR2018 (молочная железа), SICAPv2 (простата), UT-Osteosarcoma (костное) и SipakMed (шейной). Наша модель демонстрирует выдающиеся результаты: 99.32% точности для молочной железы, 96.92% для простаты, 95.28% для костных раков и 96.94% для шейного миома. Результаты показывают высокую общую точность, что указывает на сильную значимость этой модели в расширении возможностей цифровой патологии. #### Значимость Модель HistoViT предлагает возможности для масштабируемого и многоклассового диагноза рака на основе гистологических изображений. Она может быть применена в различных патологических условиях для повышения точности диагностики, уменьшения риска ошибок и улучшения работы врачей. Особенно значимо её применение в области цифровой патологии, где скейлируемость и универсальность модели открывают новые перспективы в традиционных методах диагностики. #### Выводы Наша модель HistoViT демонстрирует перспективу в патологической диагностике, обеспечивая высокую точность и масштабируемость. Будущие исследования будут фокусироваться на расширении области применения, включении дополнительных датасетов и улучшении интеграции в клинический практический подход к диагностике рака.

Annotation:

Accurate and scalable cancer diagnosis remains a critical challenge in modern pathology, particularly for malignancies such as breast, prostate, bone, and cervical, which exhibit complex histological variability. In this study, we propose a transformer-based deep learning framework for multi-class tumor classification in histopathological images. Leveraging a fine-tuned Vision Transformer (ViT) architecture, our method addresses key limitations of conventional convolutional neural networks, offe...

ID: 2508.11181v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Efficient Image-to-Image Schrödinger Bridge for CT Field of View Extension

2025-08-19

Авторы:

Zhenhao Li, Long Yang, Xiaojie Yin, Haijun Yu, Jiazhou Wang, Hongbin Han, Weigang Hu, Yixing Huang

#### Контекст Исследования фокусируются на расширении поле зрения (FOV) в вычислительной томографии (CT), чтобы устранить проблемы с реконструкцией изображений, вызванными ограниченным полем сканирования. Ограниченный FOV приводит к потерям данных на краях объекта, что приводит к неточностям и артифактам в реконструкции. Несмотря на развитие глубоких нейронных сетей, существующие методы стремительным темпам улучшают реконструкцию, но имеют высокую вычислительную сложность и медленную инференцию. Целью является разработка эффективного алгоритма, который обеспечивает как точность, так и быструю обработку. #### Метод Предложенный подход основан на методе Schrödinger Bridge (SBI), который строит директивное и ступенчатое поле вероятности между двумя распределениями. В этом случае, обучение I$^2$SB масштабирует сигналы от ограниченного FOV к расширенному FOV, обеспечивая прямую генеративную модель. Модель тренируется на парах изображений с разным FOV и использует диффузионную архитектуру, при этом система не требует многоэтапной инференции. Эта модель обладает высокой гибкостью и эффективностью, что делает ее привлекательной для технических и клинических приложений. #### Результаты Исследование проводилось на симулированных и реальных данных с различными уровнями шума и разрешения. Результаты показали, что I$^2$SB показывает очень высокую точность с RMSE 49.8 HU на симулированных данных и 152.0 HU на реальных данных. Был проведен сравнительный анализ с другими моделями, включая cDDPM и diffusionGAN. I$^2$SB не только превосходит эти методы по точности, но и достигает времени инференции всего 0.19 секунд за 2D-реконструкцию, что является более чем 700 раз быстрее, чем cDDPM и даже быстрее, чем diffusionGAN. #### Значимость Данный подход может применяться в клинических средах, где необходима быстрая и точная реконструкция изображений в реальном времени. Он предлагает выгоды в виде уменьшения вычислительных затрат и повышения точности реконструкции. Более того, ясная интерпретируемость генерируемого изображения повышает надежность и безопасность в клинической практике. #### Выводы Разработанная модель I$^2$SB достигла нового уровня эффективности и точности в CT FOV расширении. Будущие работы будут сфокусированы на расширении модели для 3D-реконструкций и её интеграции с другими методами в медицинской информатике. Эти исследования могут способствовать расширению применения диффузионных моделей в медицинской изображениях.

Annotation:

Computed tomography (CT) is a cornerstone imaging modality for non-invasive, high-resolution visualization of internal anatomical structures. However, when the scanned object exceeds the scanner's field of view (FOV), projection data are truncated, resulting in incomplete reconstructions and pronounced artifacts near FOV boundaries. Conventional reconstruction algorithms struggle to recover accurate anatomy from such data, limiting clinical reliability. Deep learning approaches have been explore...

ID: 2508.11211v1 eess.IV, cs.CV

arXiv PDF

📄 Guiding WaveMamba with Frequency Maps for Image Debanding

2025-08-19

Авторы:

Xinyi Wang, Smaranda Tasmoc, Nantheera Anantrasirichai, Angeliki Katsenou

#### Контекст Modern codecs, применяющиеся для сжатия видео, часто вызывают проблему artefacts, которые называются banding. Эти артефакты характеризуются сглаживанием градиентов цвета, что приводит к потере деталей, особенно в областях с незначительным разнообразием, таких как небо. Это проблема становится особенно актуальной при повторном транскодировании пользовательского контента, где происходит дальнейшее сжатие. Wavelet State Space Model (WSSM), в сочетании с frequency masking map, предлагается для решения этой проблемы. Оно может помочь сохранить детали в высоких частотах, необходимые для того, чтобы восстановить тонкие градиенты и избежать banding. Также, авторы предлагают методику для оценки результатов восстановления banding, которая позволяет сравнивать различные методы в этой области. #### Метод Метод Wavelet State Space Model (WSSM) используется для распаковки изображений на слои с разными частотными параметрами. Затем, изображение оценивается с помощью frequency masking map, которая определяет различные частотные зоны и предлагает подходящий подход для каждой зоны. Модель работает с высокочастотными компонентами, сохраняя детали, которые часто теряются во время сжатия. Это позволяет восстановить тонкие градиенты и улучшить общую качественность изображений. Основной принцип работы заключается в том, что WSSM оценивает градиентную информацию и сохраняет градиентные детали с помощью frequency masking map. #### Результаты Авторы проводили эксперименты с использованием двух открытых датасетов, BAND-2k и BAND-4k, которые являются стандартными для оценки banding. Использованные методы включали не только WSSM, но и другие методы, такие как DBCNN и LP-Net. Результаты показали, что WSSM с frequency masking map дает существенное улучшение восстановления, особенно в областях с низким контрастом. Для BAND-2k DBI (Debanding Index) был 0.082, что значительно выше значений других методов. Анализ графических результатов показывает, что статистические меры подтверждают качественные улучшения. Также, авторы предоставили дополнительные результаты по другим изображениям, подтверждающие эффективность их подхода. #### Значимость Предлагаемый подход может быть применен в различных областях, где сжатие видео приводит к banding, такие как пользовательский контент, трансляции, видеоредактирование. Особенно полезен для техник, где визуальное качество является критичным, таких как VR, AR, а также для работы с 4K и Ultra-HD контентом. Улучшение качества изображений также может способствовать улучшению user experience при просмотре видео. Этот подход демонстрирует потенциал для улучшения существующих систем сжатия и восстановления, которые применяются в различных приложениях.

Annotation:

Compression at low bitrates in modern codecs often introduces banding artifacts, especially in smooth regions such as skies. These artifacts degrade visual quality and are common in user-generated content due to repeated transcoding. We propose a banding restoration method that employs the Wavelet State Space Model and a frequency masking map to preserve high-frequency details. Furthermore, we provide a benchmark of open-source banding restoration methods and evaluate their performance on two pu...

ID: 2508.11331v1 eess.IV, cs.CV

arXiv PDF

📄 AnatoMaskGAN: GNN-Driven Slice Feature Fusion and Noise Augmentation for Medical Semantic Image Synthesis

2025-08-19

Авторы:

Zonglin Wu, Yule Xue, Qianxiang Hu, Yaoyao Feng, Yuqi Ma, Shanxiong Chen

#### Контекст Синтез семантических масок в медицинских изображениях является важной задачей, которая играет ключевую роль в данных для анализа и повышении точности обработки изображений. Несмотря на прогресс в генеративных нейронных сетях (GAN), существующие подходы часто сталкиваются с проблемами, такими как недостаточная спецификация пространственных зависимостей и недостаточная нагрузка на реалистичность изображений. Эти ограничения приводят к ограниченной точности и недостаточному уровню подробности в синтезированных масках. Эти проблемы являются мотивацией для разработки новых методов, которые могут компенсировать эти ограничения и улучшить качество синтеза. #### Метод Мы предлагаем AnatoMaskGAN, многослойный фреймворк, который включает в себя несколько инновационных компонентов. В первую очередь, мы разработали модуль для сильно связанной функции слияния специфичности слоёв на основе графов (GNN), который моделирует пространственные отношения между слоями интегрируя информацию из соседних слоёв. Это позволяет улучшить локальную и глобальную структуру. Далее, мы предложили 3D-стратегию внедрения шума, которая учитывает различные варианты структуры и внедряет в генерируемые изображения шум с разными весами, чтобы увеличить широту моделирования. Наконец, мы внедрили классификатор текстур, который оптимизирует гистограмму и текстурные характеристики в процессе синтеза. Эти компоненты объединены в единое целое, чтобы обеспечить более точный и реалистичный синтез масок. #### Результаты Мы проверили AnatoMaskGAN на двух открытых наборах данных: L2R-OASIS и L2R-Abdomen CT. На L2R-OASIS, наша модель показала PSNR равный 26.50 dB, что является 0.43 dB выше текущего состояния техники. На L2R-Abdomen CT, мы достигли SSIM в размере 0.8602, что является 0.48 процентной единицей выше результатов лучшей модели. Эти результаты показывают, что AnatoMaskGAN превосходит современные подходы в точности воспроизведения и качестве перцепции. Анализ абляции показал, что каждый компонент фреймворка (GNN-функция слияния специфичности слоёв, 3D-шумоввод и текстовый классификатор) вносит значительный вклад в улучшение PSNR, SSIM и LPIPS. #### Значимость AnatoMaskGAN может применяться в различных областях, включая данные для обучения и анализа медицинских изображений. Его преимущество заключается в том, что он предлагает более реалистичные и точные маски, что повышает качество данных для обучения и улучшает точность диагностических процессов. Благодаря инновационной архитектуре и высокому качеству синтеза, AnatoMask

Annotation:

Medical semantic-mask synthesis boosts data augmentation and analysis, yet most GAN-based approaches still produce one-to-one images and lack spatial consistency in complex scans. To address this, we propose AnatoMaskGAN, a novel synthesis framework that embeds slice-related spatial features to precisely aggregate inter-slice contextual dependencies, introduces diverse image-augmentation strategies, and optimizes deep feature learning to improve performance on complex medical images. Specificall...

ID: 2508.11375v1 eess.IV, cs.CV, I.4.9

arXiv PDF

📄 LKFMixer: Exploring Large Kernel Feature For Efficient Image Super-Resolution

2025-08-19

Авторы:

Yinggan Tang, Quanwei Hu

#### Контекст Решение задачи интерполяции разрешения изображений (Super-Resolution, SR) является ключевым в области обработки изображений, поскольку оно позволяет восстановить масштабированные изображения с высоким разрешением из низкокачественных исходных данных. Особенно значимо это для применений, где качество изображения критично, например, в медицине, аэрофотосъемке и развитии игр. Однако два параллельных тренда сделали эту задачу актуальной и сложной: рост спроса на эффективные модели, которые могут быстро обрабатывать изображения на устройствах с ограниченными ресурсами, и растущее желание использовать новые архитектуры, такие как Transformer, для достижения высокого качества восстановления. Традиционные модели CNN часто не могут конкурировать с новыми самоп paжимающимися моделями в плане качества, но они остаются более эффективными в плане вычислительных затрат. #### Метод LKFMixer — это модель, основанная на конвейерной сети сверточных нейронных сетей (CNN), которая решает проблему нехватки ненарушающей (не-локальной) информации в обычных моделях SR. Основная идея заключается в использовании больших ядер сверток (до 31 × 31) для увеличения ресиевлюального поля и повышения качества восстановления. Для уменьшения параметров и вычислительных затрат применяется специальная координатно-декомпозиционная техника. Особенностью модели является Spatial Feature Modulation Block (SFMB), который улучшает сфокусированность модели на как пространственных, так и канальных фичах. Для динамического управления вкладом локальных и ненарушающих фич в выходное представление используется Feature Selection Block (FSB). Архитектура LKFMixer удалось сочетать скорость обучения CNN с преимуществами работы с ненарушающей информацией, подражая при этом самоп paжимающимся подходу. #### Результаты Эксперименты проводились на таких данных, как Manga109 и DIV2K. Использовался метрика PSNR для оценки качества восстановления, а также сравнивалось время итерации модели. Модель LKFMixer-L показала себя лучше, чем SwinIR-light на датасете Manga109, улучшив PSNR на $\times$4 scale на 0.6 dB, при этом выполняя запросы в $\times$5 раз быстрее. Такие результаты подтверждают высокую эффективность LKFMixer в сравнении с современными моделями, особенно если подчеркнуть, что у LKFMixer более низкий показатель FLOPs (математического оперативного взаимодействия) по сравнению с соперниками. #### Значимость Высокая точность и эффективность LKFMixer делают ее привлекательной для широкого круга приложений, включая мобильные устройства, сетевые приложения и реального времени. Модель позволяет сочетать высокие качество восстановления и скорость вычислений, что является критичным для реально

Annotation:

The success of self-attention (SA) in Transformer demonstrates the importance of non-local information to image super-resolution (SR), but the huge computing power required makes it difficult to implement lightweight models. To solve this problem, we propose a pure convolutional neural network (CNN) model, LKFMixer, which utilizes large convolutional kernel to simulate the ability of self-attention to capture non-local features. Specifically, we increase the kernel size to 31 to obtain the large...

ID: 2508.11391v1 eess.IV, cs.CV

arXiv PDF

📄 Subcortical Masks Generation in CT Images via Ensemble-Based Cross-Domain Label Transfer

2025-08-19

Авторы:

Augustine X. W. Lee, Pak-Hei Yeung, Jagath C. Rajapakse

#### Контекст Сегментация подкортекса в нейроизображениях является ключевым элементом понимания анатомии мозга и поддерживает компьютерно-поaучную диагностику травматических тремов селеза и нейродегенеративных заболеваний. Однако, требования к обучению точных автоматических моделей требуют больших объемов етиерованных данных. Хотя для МРТ существуют обширные открытые наборы данных для сегментации подкортекса, под CT эти ресурсы очень ограничены. Это ограничение приводит к значительным проблемам в развитии и применении автоматических моделей для CT. Данная работа предлагает создание подкортексной сегментации для CT сканов, используя существующие модели на основе МРТ, что позволяет решить проблему недостатка етиерованных данных в этой области. #### Метод Предлагаемый подход заключается в разработке автоматической системы, которая использует модели на основе МРТ для генерации подкортексных масок для CT-сканов. Разработана архитектура, основанная на кросс-доменной метковой передаче, позволяющая использовать модели МРТ для получения меток подкортекса в CT. Главным инновационным моментом является то, что авторы предлагают создание пайплайна, который объединяет несколько моделей МРТ в консистентную систему, которая способна генерировать высококачественные метки подкортекса для CT. Эта система использует многомодельный подход для оптимизации точности и учета различий между МРТ и CT, что обеспечивает высокую точность в получении меток. #### Результаты Проведены испытания на нескольких открытых наборах данных, в том числе на МРТ и CT. Была показана высокая точность генерируемых меток по сравнению с другими методами. Генерируемый CT-датасет, полученный с помощью предложенного метода, был использован для обучения моделей сегментации, которые показали значительный выигрыш в точности по отношению к моделям, обученным на МРТ. Набор данных и модели были открыто выпущены, что позволяет другим исследователям продолжить развитие этой области. #### Значимость Предложенный подход имеет широкие применения в области нейроизображения и медицинского компьютерного зрения. Он позволяет преодолеть главную проблему — нехватки етиерованных данных для CT, что делает его ключевым для развития автоматизированных методов диагностики. Также, данный подход может быть применен для развития моделей, которые изучают требования к сегментации для обеих технологий — МРТ и CT. Это может способствовать созданию более точных и универсальных моделей, применимых в медицине. #### Выводы Разработанный метод демонстрирует перспективу кросс-доменного метода передачи меток для подкортекс

Annotation:

Subcortical segmentation in neuroimages plays an important role in understanding brain anatomy and facilitating computer-aided diagnosis of traumatic brain injuries and neurodegenerative disorders. However, training accurate automatic models requires large amounts of labelled data. Despite the availability of publicly available subcortical segmentation datasets for Magnetic Resonance Imaging (MRI), a significant gap exists for Computed Tomography (CT). This paper proposes an automatic ensemble f...

ID: 2508.11450v1 eess.IV, cs.CV

arXiv PDF

📄 Semi-Supervised Learning with Online Knowledge Distillation for Skin Lesion Classification

2025-08-19

Авторы:

Siyamalan Manivannan

#### Контекст Определение клеркоза земли — это ключевая задача в сфере землеустройства, которая влияет на проектирование и эффективное использование земельных ресурсов. Однако существуют серьезные проблемы, связанные с недостаточным количеством точных данных, высокой стоимостью информации и трудностями в применении традиционных методов. Эти факторы ограничивают возможности получения качественных прогнозов. Необходимо разработать более эффективные, точные и расширяемые алгоритмы, которые могут справиться с этими проблемами. #### Метод Мы предлагаем инновационный подход к определению клеркоза земли, основанный на синтезе геодезических данных и искусственного интеллекта. Метод включает несколько этапов: сбор и предобработка геодезических данных, разработка модели с использованием нейронных сетей, интеграция информации из множественных источников и оптимизация прогнозных моделей. Это позволяет повысить точность и скорость определения клеркоза земли, а также улучшить процесс принятия решений в управлении земельными ресурсами. #### Результаты Мы провели эксперименты на реальных данных от землеустройствных компаний. Модель показала высокую точность в определении клеркоза земли, превысив традиционные методы. Использование нескольких источников данных и интеграция нейронных сетей улучшили точность прогнозов, уменьшили время обработки и обеспечили более точное определение типов земель. Это решение доказало свою эффективность в реальных условиях. #### Значимость Разработанный подход может применяться в землеустройстве, геологии, строительстве и других отраслях, где необходимо точно определить класс земли. Он обеспечивает более эффективное использование ресурсов, снижает затраты на информацию и обеспечивает более точные прогнозы. Это может привести к улучшению работы управленческих и технических систем, а также повысить уровень решения проблем в этой области. #### Выводы Мы доказали эффективность инновационного подхода к определению клеркоза земли, основанному на искусственном интеллекте. Он позволяет решить задачи быстрого и точного определения классов земли, снизить затраты на информацию и повысить качество управления земельными ресурсами. Будущие работы будут сконцентрированы на улучшении модели, увеличении ее расширяемости и применении в различных реальных сценариях.

Annotation:

Deep Learning has emerged as a promising approach for skin lesion analysis. However, existing methods mostly rely on fully supervised learning, requiring extensive labeled data, which is challenging and costly to obtain. To alleviate this annotation burden, this study introduces a novel semi-supervised deep learning approach that integrates ensemble learning with online knowledge distillation for enhanced skin lesion classification. Our methodology involves training an ensemble of convolutional ...

ID: 2508.11511v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 DIVA-VQA: Detecting Inter-frame Variations in UGC Video Quality

2025-08-16

Авторы:

Xinyi Wang, Angeliki Katsenou, David Bull

## Контекст Качество видео является ключевым фактором для удовлетворяемости пользователей в современных приложениях для социальных сетей и видеотрансляций. В случае пользовательских видео (UGC), существуют проблемы с доступностью пригодных для сравнения референсных видео, что приводит к потребности в моделях **no-reference (NR) perceptual video quality assessment (VQA)**. Однако, существующие модели часто неэффективны, неточны или слишком требовательны к ресурсам. Необходима модель, которая обеспечивала бы высокую точность, низкую сложность вычислений и эффективность в анализе видео. ## Метод Предложена модель **DIVA-VQA**, основанная на разложении видео на фрагменты, учитывающие интер-фреймные изменения. Метод работает на уровнях: кадров, патчей и разложенных кадров. Он интегрирует 2D и 3D признаки, отражающие локальные и глобальные вариации. Для анализа используются **residuals**, отражающие изменения между фреймами и внутри них. Архитектура DIVA-VQA эффективно обрабатывает как статичные, так и динамические изменения качества видео, обеспечивая комплексный подход к их оценке. ## Результаты Модель была тестирована на пяти датасетах UGC и сравнивалась с тремя современными моделями. Результаты показали, что DIVA-VQA отличается высоким **rank correlation** (DIVA-VQA-L: 0.898, DIVA-VQA-B: 0.886), что делает её одной из лучших в этой области. Она также обеспечивает низкую сложность вычислений, становясь одной из самых быстрых моделей. Эти результаты подтверждают высокую эффективность DIVA-VQA в реальных условиях, где требуется быстрая и точная оценка качества видео. ## Значимость Предлагаемая модель имеет широкие применения в мониторинге качества видео на платформах социальных сетей и видеотрансляций. Она позволяет эффективно оценивать качество видео при отсутствии референсных фреймов, что является ключевой проблемой для широкого спектра приложений. Дополнительно, модель обладает низкой сложностью вычислений, что делает её привлекательной для реализации в реальном времени. ## Выводы Результаты показали, что DIVA-VQA стала одной из лидеров в области NR-VQA, обеспечивая точность и эффективность, необходимые для мониторинга качества видео. Будущие исследования будут направлены на улучшение модели, включая расширение её возможностей для анализа более сложных видео структур и увеличение её универсальности в различных условиях.

Annotation:

The rapid growth of user-generated (video) content (UGC) has driven increased demand for research on no-reference (NR) perceptual video quality assessment (VQA). NR-VQA is a key component for large-scale video quality monitoring in social media and streaming applications where a pristine reference is not available. This paper proposes a novel NR-VQA model based on spatio-temporal fragmentation driven by inter-frame variations. By leveraging these inter-frame differences, the model progressively ...

ID: 2508.10605v1 eess.IV, cs.CV, cs.MM

arXiv PDF

📄 When Experts Disagree: Characterizing Annotator Variability for Vessel Segmentation in DSA Images

2025-08-16

Авторы:

M. Geshvadi, G. So, D. D. Chlorogiannis, C. Galvin, E. Torio, A. Azimi, Y. Tachie-Baffour, N. Haouchine, A. Golby, M. Vangel, W. M. Wells, Y. Epelboym, R. Du, F. Durupinar, S. Frisken

## Контекст Сегментация сосудов в 2D Digital Subtraction Angiography (DSA) используется для определения аномалий и планирования лечения строения сетчатки глаза. Однако разногласия между аннотаторами часто встречаются в этом задании, что может привести к неточностям в диагностике и лечении. Эта проблема особенно актуальна в работе с комплексными или нестандартными случаями. Целью нашего исследования является изучение их характера для точного определения неопределенности сегментации и разработки усовершенствованных алгоритмов, учитывающих эти различия. ## Метод Мы проводили анализ разногласий в сегментации сосудов, произведенных несколькими аннотаторами в DSA-изображениях. Использованы метрики, такие как Dice Similarity Coefficient (DSC), Jaccard Similarity Coefficient (JSC) и Hausdorff Distance (HD), для оценки различий в разметке. Эти метрики были применены к каждой паре аннотаторов, а также к группам аннотаторов с различным уровнем опыта. Также были проанализированы отклонения в зависимости от областей сетчатки, на которых они возникают, и развитие методов для идентификации областей, где разногласия возникают чаще. ## Результаты Мы выявили, что разногласия в сегментации сетчатки глаза встречаются наиболее часто в сложно ограниченных областях, таких как искусствы и слияния сосудов. Отклонения по DSC, JSC и HD были высокими в этих регионах, а также возникали чаще у новичков по сравнению с опытными аннотаторами. Нашлись регионы, где разногласия были наиболее выраженными, и определились факторы, влияющие на это, такие как размер сосуда и наличие свертываний. На основе этих данных были разработаны модели, учитывающие неопределенность в процессе автоматической сегментации. ## Значимость Наши результаты имеют значительное значение для медицинской импликации. Их могут использовать для принятия более информированных решений в диагностике сосудистых аномалий. Также они могут вводить неопределенность как дополнительный признак в алгоритмах автоматической сегментации, что может повысить их точность. Будущие исследования будут фокусироваться на создании более точных методов, учитывающих разногласия аннотаторов, и их интеграции в платформы для медицинских изображений. ## Выводы Мы установили, что разногласия между аннотаторами сетчатки глаза являются значительной проблемой в 2D DSA-изображениях. Обнаружены характеристики этих разногласий, которые могут быть использованы для точного определения неопределенности в сегментации. Наша работа призвана улучшить автоматические методы сегментации, учитывая эти различия, и способствовать более точным медицинским определениям. Буду

Annotation:

We analyze the variability among segmentations of cranial blood vessels in 2D DSA performed by multiple annotators in order to characterize and quantify segmentation uncertainty. We use this analysis to quantify segmentation uncertainty and discuss ways it can be used to guide additional annotations and to develop uncertainty-aware automatic segmentation methods.

ID: 2508.10797v1 eess.IV, cs.CV

arXiv PDF

📄 Dynamic Survival Prediction using Longitudinal Images based on Transformer

2025-08-15

Авторы:

Bingfan Liu, Haolun Shi, Jiguo Cao

#### Контекст Survival analysis является ключевым инструментом в медицинской диагностике и прогнозировании, особенно при раннем выявлении и оценке прогноза заболеваний. Традиционные подходы часто ограничиваются однослойным анализом одной или нескольких медицинских картинок или структурированных данных, недостаточно учитывая сложности взаимосвязей между многомерными данными. Недостаток интерпретируемости и эффективности таких подходов приводит к значительным ограничениям в практическом применении survival analysis. Наша мотивация заключается в развитии метода, который мог бы объединить несколько медицинских изображений, измеренных на различных моментах времени, с структурированными данными для более точной и интерпретируемой оценки срока выживания. #### Метод Мы предлагаем SurLonFormer, новую архитектуру на базе Transformer, которая объединяет три составляющих: **Vision Encoder**, **Sequence Encoder** и **Survival Encoder**. Vision Encoder извлекает пространственные признаки из медицинских изображений, а Sequence Encoder агрегирует информацию о временных изменениях. Survival Encoder, основанный на модели Cox proportional hazards, интегрирует эти компоненты для точной оценки срока выживания. Этот подход позволяет эффективно обрабатывать censored data, учитывать корреляции между медицинскими изображениями, измеренными на разных моментах времени, и обеспечивает интерпретируемость результатов с помощью occlusion sensitivity analysis. #### Результаты Мы провести обширные эксперименты на симуляционных данных и реальных медицинских измерениях, включая задачу оценки срока выживания при Alzheimer's disease. SurLonFormer показал высокую точность и стабильность в прогностической моделировании, когда использовались данные из нескольких моментов времени. Модель также продемонстрировала высокую интерпретируемость, выделив значимые динамические характеристики, связанные с заболеванием. В сравнении с другими подходами, SurLonFormer показал значительные преимущества в объеме прогнозируемой информации и точности выявления образов, связанных с заболеванием. #### Значимость Наш подход может быть широко применен в диагностике, прогнозировании и мониторинге многих медицинских заболеваний, где необходимо учитывать динамические изменения, основанные на многомерных данных. SurLonFormer обеспечивает новый уровень точности и интерпретируемости, объединяя принципы Transformer-архитектур с медицинскими задачами. Это может привести к значительным улучшениям в практическом применении survival analysis в клинической практике. #### Выводы SurLonFormer достиг высокой точности в survival prediction, объединив медицинские изображения и структурированные данные. Мы также идентифицировали принципиальные динамические характеристики, связанные с заболеванием, которые могут быть использованы в буду

Annotation:

Survival analysis utilizing multiple longitudinal medical images plays a pivotal role in the early detection and prognosis of diseases by providing insight beyond single-image evaluations. However, current methodologies often inadequately utilize censored data, overlook correlations among longitudinal images measured over multiple time points, and lack interpretability. We introduce SurLonFormer, a novel Transformer-based neural network that integrates longitudinal medical imaging with structure...

ID: 2508.09328v1 eess.IV, cs.CV, stat.AP, stat.OT

arXiv PDF

1
2
20
21
22
23
24
26
27

Показано 211 - 220 из 268 записей