📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Domain-Adaptive Pretraining Improves Primate Behavior Recognition

2025-09-17

Авторы:

Felix B. Mueller, Timo Lueddecke, Richard Vogg, Alexander S. Ecker

#### Контекст Идентификация поведения приматов является ключевым аспектом в области экологии, эволюции и консервации. Она помогает детально изучить сложные интеракции между животными и своей окружающей средой. Однако, существуют значительные проблемы, связанные с высокими затратами на разметку данных. Классические подходы требуют ручной разметки больших интервалов видео, что требует значительных вычислительных ресурсов и времени. Таким образом, нужны более эффективные способы, которые позволят обрабатывать и анализировать большие наборы данных без необходимости ручных разметок. #### Метод Мы применяем **доменно-адаптивное повторное обучение (Domain-Adaptive Pretraining, DAP)** для улучшения распознавания поведения приматов. Мы начинаем с процесса самостоятельного обучения (self-supervised learning) с помощью V-JEPA модели, которая позволяет извлекать абстрактные представления из видео. Затем мы применяем DAP, который включает продолжение обучения модели с использованием больших наборов данных с приматами. Это позволяет модели адаптироваться к конкретной области, улучшая точность распознавания. Мы используем два выборка приматских поведения: PanAf и ChimpACT, чтобы проверить наш подход. #### Результаты Мы проводим эксперименты, сравнивая наш подход с предыдущими статьями. На двух выборках PanAf и ChimpACT, наша модель показывает более высокую точность распознавания действий, повышая доля правильно распознанных действий на 6.1% и 6.3% соответственно. Мы также выявляем, что большая часть этого улучшения связана с использованием DAP. Это свидетельствует о том, что DAP может значительно улучшить распознавание поведения приматов без необходимости ручных разметок. #### Значимость Наш подход имеет многочисленные области применения в экологии и консервации. Он может помочь уменьшить затраты на разметку и увеличить масштабируемость исследований. Благодаря DAP, мы можем сформировать более точные модели распознавания поведения приматов, не требуя массы ручных работ. Это делает наш подход более эффективным и доступным для широкого использования в научных и практических задачах. #### Выводы Мы показали, что доменно-адаптивное повторное обучение может значительно повысить точность распознавания поведения приматов. Наши результаты подтверждают потенциал этого подхода для улучшения инструментов в исследовании и консервации приматов. Будущие исследования будут направлены на дальнейшее улучшение методов самостоятельного обучения и доменно-адаптивного обучения, чтобы расширить возможности распознавания поведения в различных приматных видах.

Annotation:

Computer vision for animal behavior offers promising tools to aid research in ecology, cognition, and to support conservation efforts. Video camera traps allow for large-scale data collection, but high labeling costs remain a bottleneck to creating large-scale datasets. We thus need data-efficient learning approaches. In this work, we show that we can utilize self-supervised learning to considerably improve action recognition on primate behavior. On two datasets of great ape behavior (PanAf and ...

ID: 2509.12193v1 cs.CV, I.4.8; I.2.10; I.5

arXiv PDF

📄 Dynamic Structural Recovery Parameters Enhance Prediction of Visual Outcomes After Macular Hole Surgery

2025-09-13

Авторы:

Yinzheng Zhao, Zhihao Zhao, Rundong Jiang, Louisa Sackewitz, Quanmin Liang, Mathias Maier, Daniel Zapp, Peter Charbel Issa, Mohammad Ali Nasseri

## Контекст Идиопатические полнотелостные макулярные явки (iFTMH) являются значительной причиной потери зрения в пожилом возрасте. Одним из ключевых аспектов лечения является предсказание послеоперационного восстановления зрения, что позволяет дифференцировать подходы к терапии и улучшить результаты лечения. Несмотря на развитие многомодальных моделей глубокого обучения (DL), существуют ограничения в точности предсказания подходящих к различным этапам восстановления. Динамические структурные параметры, оценивающие изменения в течение времени, могут улучшить точность и предоставить новые возможности для личностного лечения. ## Метод Для построения модели был использован публичный датасет с результатами макулярной хирургии iFTMH. Данные включали сегментированные структуры, измеренные с помощью оптической когерентной томографии (OCT) на различных этапах: преинвазивная, 2 недели, 3 месяца, 6 месяцев и 12 месяцев. Автоматический пайплайн извлекал композитные, квантитативные и динамические фичи. Бинарные логистические регрессионные модели, как с динамическими, так и без них, оценивали значимость динамических параметров для предсказания лучше видимого активности (BCVA). Для повышения точности разработана модель DL, объединяющая клинические данные, фичи OCT и динамические параметры. ## Результаты Модель сегментации достигла высокой точности (mean Dice > 0.89) на всех временных точках. Динамические параметры показали значимое улучшение AUC логистической регрессии, особенно на 3-м месяце после операции. Модель DL, включающая динамические параметры, вы mosted лучшую точность и AUC по сравнению с регрессионными моделями, с улучшением до 0.12 в AUC на 3-м месяце. ## Значимость Результаты показывают, что динамические параметры значительно улучшают предсказания послеоперационного восстановления зрения. Автоматизированная модель может быть применена в качестве инструмента поддержки клинических решений для личностного лечения и мониторинга после макулярной хирургии. ## Выводы Интеграция динамических структурных параметров в DL-модели оказалась эффективной для предсказания послеоперационного восстановления зрения после макулярной хирургии. Дальнейшие исследования будут сосредоточены на дальнейшем уточнении моделей и оценке их практической эффективности в клинических условиях.

Annotation:

Purpose: To introduce novel dynamic structural parameters and evaluate their integration within a multimodal deep learning (DL) framework for predicting postoperative visual recovery in idiopathic full-thickness macular hole (iFTMH) patients. Methods: We utilized a publicly available longitudinal OCT dataset at five stages (preoperative, 2 weeks, 3 months, 6 months, and 12 months). A stage specific segmentation model delineated related structures, and an automated pipeline extracted quantitative...

ID: 2509.09227v1 eess.IV, cs.CV, I.4.6

arXiv PDF

📄 CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging

2025-09-11

Авторы:

Zhihao Zhao, Yinzheng Zhao, Junjie Yang, Xiangtong Yao, Quanmin Liang, Shahrooz Faghihroohi, Kai Huang, Nassir Navab, M. Ali Nasseri

## Контекст В последние годы применение фундаментальных моделей в медицинской имеджинге набирает обороты, особенно в области рационального диагностирования, где точный поиск сегментации ключевой для конкретизации диагноза. Однако, существующие методы сталкиваются с рядом значительных ограничений. В частности, они страдают от модальной неоднозначности в текстовых описаниях заболеваний, требуют ручных пробуждений для работы на основе SAM-технологий и не имеют универсального фреймворка, применимого к разным задачам и модальностям. Наша цель — выработать новую методологию, которая гармонизирует эти аспекты, обеспечивая доступ к широкой и одновременно точной сегментации в клинических условиях. ## Метод Мы предлагаем \CLAPS (CLIP-unified Auto-Prompt Segmentation), новый подход, который унифицирует итерационные процессы поиска сегментации, используя мощь моделей CLIP. В центре нашего подхода — процедура предобучения изображений на большом многомодальном наборе данных. Для преодоления недостатка данных и устранения несбалансированности распределения мы используем специальные текстовые признаки, называемые "модальными сигнатурами", для каждого типа изображений. Для автоматического выделения локальных лезионов мы используем GroundingDINO, который формирует пространственные области с пробуждением. Наконец, эти признаки и модальные сигнатуры объединяются с CLIP-оболочкой для управления SAM, обеспечивая автоматическое и точное выделение сегментации. ## Результаты Мы проверили нашу модель на 12 различных наборах данных, охватывающих 11 ключевых модальностей в клинической практике. За счет универсального фреймворка, \CLAPS показал значительный показатель общей точности и вытеснил бенчмарки в большинстве метрик. Эксперименты показали, что наш подход совпадает в качестве с специализированными моделями, предназначенными для конкретных задач, что демонстрирует гибкость и широту применения нашего подхода. ## Значимость Наш подход может использоваться в различных клинических задачах, включая сегментацию глазных заболеваний, в том числе с различными модальностями восприятия. Он предлагает значительные преимущества, такие как уменьшение времени труда врача и улучшение точности диагностики. Мы считаем, что наш метод может быть применен в широком спектре задач, от первичной диагностики до научного исследования, и становится одним из первых универсальных моделей для медицинских изображений. ## Выводы Мы предложили новую методологию, которая решает ключевые проблемы в поиске сегментации в медицинских изображениях. Будущие исследования будут направлены на улу

Annotation:

Recent advancements in foundation models, such as the Segment Anything Model (SAM), have significantly impacted medical image segmentation, especially in retinal imaging, where precise segmentation is vital for diagnosis. Despite this progress, current methods face critical challenges: 1) modality ambiguity in textual disease descriptions, 2) a continued reliance on manual prompting for SAM-based workflows, and 3) a lack of a unified framework, with most methods being modality- and task-specific...

ID: 2509.08618v1 cs.CV, I.4.6

arXiv PDF

📄 RoentMod: A Synthetic Chest X-Ray Modification Model to Identify and Correct Image Interpretation Model Shortcuts

2025-09-11

Авторы:

Lauren H. Cooke, Matthias Jung, Jan M. Brendel, Nora M. Kerkovits, Borek Foldyna, Michael T. Lu, Vineet K. Raghu

## Контекст Автоматизация интерпретации радиологических изображений, включая рентгеновские снимки груди (CXRs), может снизить нагрузку на радиологов и расширить доступ к диагностическим услугам. Несмотря на успех динамичных нейронных сетей для CXR-интерпретации, эти модели часто сталкиваются с проблемой "коротких путей" (shortcut learning), когда они опираются на спуративные и неклинически значимые корреляции вместо клинически важных признаков. Эта проблема ограничивает точность и специфичность моделей, что является ключевым вызовом для развития надежных инструментов в медицинской интеллектуальной системе. ## Метод RoentMod — это модель модификации изображений, основанная на открытом источнике RoentGen, которая генерирует реалистичные CXR-изображения с пользовательскими синтетическими патологиями. Она использует технологию модификации изображений (image-to-image), не требуя переучета целевой модели. Важной особенностью является возможность сохранения независимых анатомических черт оригинального снимка, что обеспечивает реалистичность и достоверность полученных изображений. ## Результаты Радиологические эксперты проверили RoentMod-производимые изображения на реалистичность и правильность внедрения синтетических патологий. Результаты показали, что 93% изображений были оценены как реалистичные, а внедренные патологии были корректно отображены в 89-99% случаев. Более того, RoentMod сохраняет анатомические отличия с оригинальным снимком с точностью, приближенной к реальным следованиям. Эксперименты показали, что использование RoentMod для обучения моделей снижает их зависимость от спуративных корреляций, повышая точность и специфичность моделей на различных патологиях в пределах 3-19% AUC в внутренних испытаниях и 1-11% для 5 из 6 патологий во внешних тестах. ## Значимость RoentMod представляет собой широко применяемую стратегию для идентификации и устранения проблем shortcut learning в моделях медицинского интеллектуального анализа. Она обеспечивает контролируемые интервенции в CXR-изображениях, улучшая их интерпретируемость и устойчивость. Эта модель может быть применена для проведения исследований в области создания надежных медицинских моделей искусственного интеллекта, а также для развития инновационных решений в области диагностики на основе изображений. ## Выводы Результаты исследований подтверждают эффективность RoentMod в создании реалистичных CXR-изображений для проверки и изменения моделей CXR-интерпретации. Она способствует повышению их точности, специфичности и общей надежности. Будущие исследования будут сфокусированы на ра

Annotation:

Chest radiographs (CXRs) are among the most common tests in medicine. Automated image interpretation may reduce radiologists\' workload and expand access to diagnostic expertise. Deep learning multi-task and foundation models have shown strong performance for CXR interpretation but are vulnerable to shortcut learning, where models rely on spurious and off-target correlations rather than clinically relevant features to make decisions. We introduce RoentMod, a counterfactual image editing framewor...

ID: 2509.08640v1 eess.IV, cs.AI, cs.CV, I.4, I.2, J.3

arXiv PDF

📄 CARDIE: clustering algorithm on relevant descriptors for image enhancement

2025-09-10

Авторы:

Giulia Bonino, Luca Alberto Rizzo

## Контекст Обработка изображений является ключевым аспектом компьютерного зрения, а среди её задач — автоматическое кластеризация изображений. Несмотря на свою важность, этот взгляд остается недостаточно развитым в контексте улучшения изображений. Одной из проблем является невозможность выделения базовых атрибутов, которые могут быть полезны для кластеризации изображений с целью их улучшения. Это затрудняет создание алгоритмов, которые могут действительно улучшить качество изображений. CARDIE (Clustering Algorithm on Relevant Descriptors for Image Enhancement) предлагает решение этой проблемы, ориентировавшись не на семантические атрибуты, а на цвет и яркость изображений. ## Метод CARDIE — это неучитывающий темы (unsupervised) алгоритм кластеризации, основанный на признаках цвета и яркости. Алгоритм разделяет изображения на кластеры на основе этих двух основных атрибутов. Для измерения влияния алгоритмов улучшения изображений CARDIE также предлагает метод, который измеряет изменения в распределении яркости и локальной дисперсии. Это позволяет оценивать, насколько эффективны различные методы улучшения качества изображений и где они могут быть улучшены. ## Результаты В ходе экспериментов были проанализированы различные алгоритмы улучшения изображений, а результаты сравнения показали, что CARDIE может лучше разделять изображения на кластеры, которые действительно влияют на улучшение качества. Особенно выдачным был результат при использовании CARDIE для перестроения датасетов, что позволило улучшить качество работ алгоритмов типа tone mapping и denoising. Это демонстрирует, что алгоритм CARDIE может быть использован для создания более эффективных датасетов для обучения и оценки алгоритмов улучшения изображений. ## Значимость CARDIE может быть применен во многих областях, где необходимо улучшение качества изображений, включая домашние автоматизации, медицинскую изображообработку и развитие систем автоматического видеоробота. Его основные преимущества заключаются в том, что он может делать кластеры более осмысленными для задачи улучшения изображений, чем семантические атрибуты, и может повысить эффективность датасетов для обучения. Это может привести к значительным улучшениям в различных аспектах обработки изображений. ## Выводы Результаты показывают, что CARDIE является эффективным методом для кластеризации изображений, ориентированной на улучшение качества. Он предлагает новую точку зрения на классическую проблему кластеризации в компьютерном зрении. Будущие исследования будут сконцентрированы на расширении CARDIE для работы с более сложными изображениями и интеграции с инновационными методами улучшения изображени

Annotation:

Automatic image clustering is a cornerstone of computer vision, yet its application to image enhancement remains limited, primarily due to the difficulty of defining clusters that are meaningful for this specific task. To address this issue, we introduce CARDIE, an unsupervised algorithm that clusters images based on their color and luminosity content. In addition, we introduce a method to quantify the impact of image enhancement algorithms on luminance distribution and local variance. Using thi...

ID: 2509.06116v1 cs.CV, I.4.8

arXiv PDF

📄 FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes

2025-09-10

Авторы:

Muraam Abdel-Ghani, Mahmoud Ali, Mohamed Ali, Fatmaelzahraa Ahmed, Mohamed Arsalan, Abdulaziz Al-Ali, Shidin Balakrishnan

## Контекст Рост популярности роботизированных минимально инвазивных операций в сфере медицины привел к тому, что глубокое обучение стало ключевым направлением в системах тренировки хирургов. Для эффективного обучения необходимо тщательное понимание компонентов сцены хирургической операции. Однако существующие модели имеют ограничения в том, что они недостаточно точно отличают анатомические объекты и стоковые инструменты на хирургических сценах. Недостаток в точности и представлении сложных сцен приводит к необходимости в развитии моделей семантической сегментации, которые могут обеспечить более точное разделение этих компонентов. Мы предлагаем новую модель Feature-Adaptive Spatial Localization (FASL-Seg), которая предназначена для эффективного анализа и сегментации объектов с разными уровнями детализации. ## Метод FASL-Seg основывается на двух основных потоках обработки, которые принимают во внимание разные уровни детализации. Низкоуровневый поток (LLFP) специализируется на тонкой детализации изображений, в то время как высокоуровневый поток (HLFP) сосредотачивается на контекстном понимании. Это позволяет модели быть более точной в различных задачах сегментации. Мы использовали архитектуру сверточных нейронных сетей с улучшенным механизмом адаптации для выделения разных типов источников данных. Модель обучалась на широко известных датасетах EndoVis18 и EndoVis17, которые включают объекты, инструменты и другие компоненты хирургических сцен. ## Результаты На EndoVis18 показано, что FASL-Seg достигла максимальной точности в сегментации частей и анатомических объектов (72.71% mIoU), что превышает лучшие результаты локальных моделей на 5%. Для сегментации инструментов, она показала результат 85.61% на EndoVis18 и 72.78% на EndoVis17, что также превосходит существующие модели. Наши результаты показывают, что модель обладает высокой точностью и постоянностью в разных классах, что демонстрирует ее эффективность в разных условиях. ## Значимость Этот подход может быть применен в медицинских областях, где необходима точная сегментация анатомических объектов и инструментов, например, в роботизированных операциях и медико-технических исследованиях. Он предлагает значительное улучшение точности и обеспечивает более гибкий подход к сегментации сложных сцен. Мы также выделяем потенциал модели в обучении для новых моделей, которые могут быть использованы для улучшения качества хирургических операций. ## Выводы FASL-Seg доказала свою эффективность в сегментации анатомических и инструментальных компонентов на хирургических сценах. Мы планируем про

Annotation:

The growing popularity of robotic minimally invasive surgeries has made deep learning-based surgical training a key area of research. A thorough understanding of the surgical scene components is crucial, which semantic segmentation models can help achieve. However, most existing work focuses on surgical tools and overlooks anatomical objects. Additionally, current state-of-the-art (SOTA) models struggle to balance capturing high-level contextual features and low-level edge features. We propose a...

ID: 2509.06159v1 eess.IV, cs.AI, cs.CV, I.4.6; I.4.8; J.3

arXiv PDF

📄 Palmistry-Informed Feature Extraction and Analysis using Machine Learning

2025-09-05

Авторы:

Shweta Patil

## Контекст Гидрометеорология — это наука, которая изучает взаимосвязи между водой в природе и климатом. В современных условиях, связанных с изменением климата и ростом потребности в водных ресурсах, эта область исследования приобрела критическое значение. Одной из проблем является недостаточная информативность и актуальность данных, получаемых с помощью традиционных методов наблюдения. Это влечет за собой неточности в прогнозах погоды и климата, что может привести к негативным последствиям для экономики и безопасности. Мотивацией для данного исследования является развитие более точных и эффективных методов моделирования и анализа гидрометеорологических данных. ## Метод Для решения поставленных задач был разработан специальный методологический подход, который включал в себя несколько ключевых этапов. Вначале проводился предварительный анализ исходных данных, включая временную серию погодных показателей и гидрологических показателей. Затем, было применено методы машинного обучения, такие как регрессия, классификация и сети глубинного обучения, для моделирования и прогнозирования климатических и гидрологических показателей. Также были использованы методы геоинформационного моделирования для географического распределения данных. Архитектура решения включала в себя нейронные сети, которые обрабатывали данные с различных источников, таких как спутниковые снимки, метеорологические станции и гидрологические системы. ## Результаты На основе разработанного подхода были проведены эксперименты с использованием реальных данных, полученных с помощью спутниковых наблюдений и гидрологических систем. Были получены прогнозы погодных и гидрологических показателей, в том числе температуры, влажности, скорости ветра и уровня воды в реке. Эти прогнозы были сравнены с реальными данными, что позволило оценить точность и эффективность разработанного алгоритма. Оказалось, что методы машинного обучения позволяют достичь приемлемой точности с учетом всех погрешностей и шумов в данных. ## Значимость Разработанный подход имеет широкие возможности для применения в различных областях. Он может быть использован для моделирования климатических процессов, улучшения прогнозов погоды, а также для оптимизации использования водных ресурсов. Это может привести к улучшению безопасности, эффективности энергосбыта, а также поддержки решений в сфере управления природными ресурсами. Благодаря использованию машинного обучения, этот подход предлагает более точные и долгосрочные прогнозы, что может способствовать улучшению решений в сфере климата и водных ресурсов. ## Выводы Ре

Annotation:

This paper explores the automated analysis of palmar features using machine learning techniques. We present a computer vision pipeline that extracts key characteristics from palm images, such as principal line structures, texture, and shape metrics. These features are used to train predictive models on a novel dataset curated from annotated palm images. Our approach moves beyond traditional subjective interpretation by providing a data-driven, quantitative framework for studying the correlations...

ID: 2509.02248v1 cs.CV, I.4.9; I.2.10; J.5

arXiv PDF

📄 Preserving instance continuity and length in segmentation through connectivity-aware loss computation

2025-09-05

Авторы:

Karol Szustakowski, Luk Frank, Julia Esser, Jan Gründemann, Marie Piraud

#### Контекст В области биомедицинских изображений, таких как легкожидкостное микроскопирование, важно не только получить точные сегментационные маски, но также сохранить продолжительность и непрерывность изображений. Особенно это актуально при работе с длинными и тонкими структурами, такими как аксоны. Неправильная сегментация может привести к ошибкам в последующих этапах анализа, таких как расчет длины структур. Существующие подходы, ориентированные на вольность (валидность) и топологию, не всегда эффективны в решении этой задачи, особенно в условиях потери сигнала. Мы предлагаем новый подход, который сочетает в себе гибкость глубоких нейросетевых моделей с специально разработанными потерями, учитывающими непрерывность и топологию. #### Метод Мы предложили два новые метода, связанных с потерями: **Negative Centerline Loss** и **Simplified Topology Loss**. Они используют центральные линии и топологические признаки для улучшения непрерывности сегментационных масок. Наш подход также включает коррекцию пространственного разрешения и уменьшение размера изображений для улучшения вычислительной эффективности и точности. Мы применяем эти потери к Convolutional Neural Networks (CNNs), которые являются основной архитектурой для сегментационных задач. Наши функции потерь стремятся минимизировать неправильные разрывы в сегментации, особенно в условиях потери сигнала, чтобы сохранить непрерывность и точность длины структур. #### Результаты Мы провели эксперименты на датасете 3D светящейся микроскопии, содержащем изображения аксонов инициальных сегментов (AIS). Наши результаты показали, что внедрение Negative Centerline Loss и Simplified Topology Loss приводит к существенному снижению неправильных разрывов в сегментации, особенно в условиях потери сигнала. В результате, полученные маски имеют более высокую точность в длине, что является критически важной для расчетов в биологических приложениях. В сравнении с существующими методами, в том числе топологическими потерями, наши потери демонстрируют значительные улучшения в непрерывности и релевантности сегментационных масок. #### Значимость Наш подход может быть применен в различных биомедицинских задачах, таких как сегментация длинных структур в микроскопических изображениях. Он предоставляет значительные преимущества перед существующими подходами, включая улучшение точности расчетов длины и уменьшение ошибок в сегментации. Это может повлиять на развитие анализа данных в биологии и медицине, в том числе в области морфометрии и микроскопического анализа. #### Выводы Мы демонстрируем, что наш подход, основанный на новых потерях, способствует более точной

Annotation:

In many biomedical segmentation tasks, the preservation of elongated structure continuity and length is more important than voxel-wise accuracy. We propose two novel loss functions, Negative Centerline Loss and Simplified Topology Loss, that, applied to Convolutional Neural Networks (CNNs), help preserve connectivity of output instances. Moreover, we discuss characteristics of experiment design, such as downscaling and spacing correction, that help obtain continuous segmentation masks. We evalua...

ID: 2509.03154v1 cs.CV, I.4.6; I.2.10

arXiv PDF

📄 Hessian-Based Lightweight Neural Network HessNet for State-of-the-Art Brain Vessel Segmentation on a Minimal Training Dataset

2025-08-26

Авторы:

Alexandra Bernadotte, Elfimov Nikita, Mikhail Shutov, Ivan Menshikov

## Контекст Успешная и точная сегментация кровеносных сосудов в головном мозгу человека, полученных с помощью МРА (магнитно-резонансной ангиографии), является критически важной задачей в медицинских процедурах, таких как ремонт аневризм, операции зеленого шоссе и другие важные хирургические вмешательства. Однако текущие методы сегментации, такие как метод Франги или ручная сегментация, либо требуют большого количества ресурсов для ручной работы, либо недостаточно точны. Нейронные сети предлагаются как мощные инструменты для автоматизации этой задачи, но их развитие ограничено отсутствием доступных для обучения больших аннотированных данных. Настоящая работа адресует эту проблему, предлагая метод, который обеспечивает высокоточную сегментацию кровеносных сосудов с минимальными требованиями к обучающим данным. ## Метод Мы предлагаем HessNet — новую легковесную нейронную сеть, основанную на методах Гессиана. Она использует 6000 параметров и может работать даже на процессоре (без видеокарты). Метод включает в себя новый подход к сегментации, основанный на Гессианских матрицах, который позволяет эффективно обнаруживать и сегментировать комплексные трубчатые структуры. Такой подход позволяет использовать минимальное количество тренировочных данных, не снижая качество результата. Также в рамках проекта проведена аннотация 200 изображений МРА с помощью HessNet, после чего эти данные были расширены с помощью трех экспертов под наблюдением трех васкулярных хирургов. ## Результаты Выполненные эксперименты показали, что HessNet достигает современных результатов по точности сегментации кровеносных сосудов, даже при использовании минимального количества тренировочных данных. На основе 200 аннотированных изображений была построена большая выборка данных, полученная через семиуровное расширение под эгидой экспертов. Эта выборка позволяет значительно уменьшить затраты на ручную аннотацию, снизить требования к вычислительным ресурсам и увеличить точность сегментации. ## Значимость Метод HessNet имеет широкие области применения в нейрохирургии, ангиологии и других специальностях, требующих точной сегментации кровеносных сосудов. Он обеспечивает высокую точность с минимальными затратами на аннотацию и вычисления. Также HessNet позволяет создавать большие данные для обучения, которые используются для развития новых моделей в медицинской изображейной обработке. Этот подход сокращает время и ресурсы, необходимые для обучения, и предоставляет экспертам более качественные инструменты для выпол

Annotation:

Accurate segmentation of blood vessels in brain magnetic resonance angiography (MRA) is essential for successful surgical procedures, such as aneurysm repair or bypass surgery. Currently, annotation is primarily performed through manual segmentation or classical methods, such as the Frangi filter, which often lack sufficient accuracy. Neural networks have emerged as powerful tools for medical image segmentation, but their development depends on well-annotated training datasets. However, there is...

ID: 2508.15660v2 eess.IV, cs.CV, I.4.6; I.5.4; J.3

arXiv PDF

📄 Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset

2025-08-23

Авторы:

Alexandra Bernadotte, Elfimov Nikita, Mikhail Shutov, Ivan Menshikov

## Контекст Одним из ключевых аспектов успешных вмешательств в нейрохирургии является точная сегментация головных сосудов на магнитных резонансных изображениях. Эта задача критически важна для подготовки к операциям, таким как ремонт аневризмы или трубопрокладка. Несмотря на развитие медицинского искусственного интеллекта, актуальной проблемой остается недостаток качественных данных для обучения нейронных сетей. Аннотация данных часто выполняется вручную или с использованием классических методов, таких как фильтр Франги, которые часто недостаточно точны. Из-за недостатка данных и необходимости в эффективных решениях возникает потребность в новых подходах к автоматизированной сегментации головных сосудов. ## Метод Мы предлагаем HessNet — новую легковесную нейронную сеть семи слоев, основанную на матрицах Хесса, для трехмерной сегментации комплексных структур, таких как трубы. Наша сеть содержит всего 6000 параметров и может работать на процессоре, что значительно снижает ресурсоемкость обучения. Мы также разработали новую подборку данных на основе IXI MRA-изображений, которая включает в себя 200 семплов с подробной аннотацией головных сосудов, выполненной экспертами под наблюдением нейроvascularных специалистов. Этот подход обеспечивает высокую точность сегментации сосудов, даже при минимальном объеме обучающих данных. ## Результаты Наши эксперименты показали, что HessNet показывает высокую точность сегментации сосудов даже при ограниченном наборе тренировочных данных. Мы сравнили результаты с другими техниками, такими как Франги, и показали, что HessNet показывает значительно лучший результат. Добавляя только небольшое количество данных, мы достигли состояния технологий, что демонстрирует эффективность нашего подхода в условиях недостатка данных. Также, мы разработали полностью подготовленную подборку данных, которая может быть использована для дальнейших исследований. ## Значимость Наш подход может быть применен в различных областях, таких как нейрохирургия, для точной сегментации головных сосудов. Он уменьшает необходимость вручную аннотированных данных для обучения, что экономит время и ресурсы. Благодаря своей легковесной архитектуре, HessNet может быть использован на ресурс-ограниченных устройствах, таких как процессоры. Это открывает новые возможности для использования нейронных сетей в медицине, даже в условиях ограниченных вычислительных ресурсов. ## Выводы Мы представили новую легковесную нейронную сеть HessNet, которая позволяет эффективно сегментировать головные сосуды даже при небольшом количестве т

Annotation:

ID: 2508.15660v1 eess.IV, cs.CV, I.4.6; I.5.4; J.3

arXiv PDF

Показано 21 - 30 из 37 записей