📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Mapping and Classification of Trees Outside Forests using Deep Learning

2025-10-31

Авторы:

Moritz Lucas, Hamid Ebrahimy, Viacheslav Barkov, Ralf Pecenka, Kai-Uwe Kühnberger, Björn Waske

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Trees Outside Forests (TOF) play an important role in agricultural landscapes by supporting biodiversity, sequestering carbon, and regulating microclimates. Yet, most studies have treated TOF as a single class or relied on rigid rule-based thresholds, limiting ecological interpretation and adaptability across regions. To address this, we evaluate deep learning for TOF classification using a newly generated dataset and high-resolution aerial imagery from four agricultural landscapes in Germany. S...

ID: 2510.25239v1 cs.CV, I.4.6

arXiv PDF

📄 A Semantics-Aware Hierarchical Self-Supervised Approach to Classification of Remote Sensing Images

2025-10-08

Авторы:

Giulio Weikmann, Gianmarco Perantoni, Lorenzo Bruzzone

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Deep learning has become increasingly important in remote sensing image classification due to its ability to extract semantic information from complex data. Classification tasks often include predefined label hierarchies that represent the semantic relationships among classes. However, these hierarchies are frequently overlooked, and most approaches focus only on fine-grained classification schemes. In this paper, we present a novel Semantics-Aware Hierarchical Consensus (SAHC) method for learni...

ID: 2510.04916v1 cs.CV, I.4.6; I.4.8; I.4.10

arXiv PDF

📄 Adapting SAM with Dynamic Similarity Graphs for Few-Shot Parameter-Efficient Small Dense Object Detection: A Case Study of Chickpea Pods in Field Conditions

2025-10-02

Авторы:

Xintong Jiang, Yixue Liu, Mohamed Debbagh, Yu Tian, Valerio Hoyos-Villegas, Viacheslav Adamchuk, Shangpeng Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Parameter-Efficient Fine-Tuning (PEFT) of foundation models for agricultural computer vision tasks remains challenging due to limited training data and complex field conditions. This study introduces a Dynamic Similarity-based Graph Adaptation (DSGA) module to adapt the Segment Anything Model (SAM) under extreme data constraints for precise foreground and instance segmentation of small dense objects in complex agricultural environments. Through dynamic similarity graph construction with a learna...

ID: 2509.25805v1 cs.CV, I.4.6; I.2.10; I.5.1; I.4.8

arXiv PDF

📄 Dynamic Structural Recovery Parameters Enhance Prediction of Visual Outcomes After Macular Hole Surgery

2025-09-13

Авторы:

Yinzheng Zhao, Zhihao Zhao, Rundong Jiang, Louisa Sackewitz, Quanmin Liang, Mathias Maier, Daniel Zapp, Peter Charbel Issa, Mohammad Ali Nasseri

## Контекст Идиопатические полнотелостные макулярные явки (iFTMH) являются значительной причиной потери зрения в пожилом возрасте. Одним из ключевых аспектов лечения является предсказание послеоперационного восстановления зрения, что позволяет дифференцировать подходы к терапии и улучшить результаты лечения. Несмотря на развитие многомодальных моделей глубокого обучения (DL), существуют ограничения в точности предсказания подходящих к различным этапам восстановления. Динамические структурные параметры, оценивающие изменения в течение времени, могут улучшить точность и предоставить новые возможности для личностного лечения. ## Метод Для построения модели был использован публичный датасет с результатами макулярной хирургии iFTMH. Данные включали сегментированные структуры, измеренные с помощью оптической когерентной томографии (OCT) на различных этапах: преинвазивная, 2 недели, 3 месяца, 6 месяцев и 12 месяцев. Автоматический пайплайн извлекал композитные, квантитативные и динамические фичи. Бинарные логистические регрессионные модели, как с динамическими, так и без них, оценивали значимость динамических параметров для предсказания лучше видимого активности (BCVA). Для повышения точности разработана модель DL, объединяющая клинические данные, фичи OCT и динамические параметры. ## Результаты Модель сегментации достигла высокой точности (mean Dice > 0.89) на всех временных точках. Динамические параметры показали значимое улучшение AUC логистической регрессии, особенно на 3-м месяце после операции. Модель DL, включающая динамические параметры, вы mosted лучшую точность и AUC по сравнению с регрессионными моделями, с улучшением до 0.12 в AUC на 3-м месяце. ## Значимость Результаты показывают, что динамические параметры значительно улучшают предсказания послеоперационного восстановления зрения. Автоматизированная модель может быть применена в качестве инструмента поддержки клинических решений для личностного лечения и мониторинга после макулярной хирургии. ## Выводы Интеграция динамических структурных параметров в DL-модели оказалась эффективной для предсказания послеоперационного восстановления зрения после макулярной хирургии. Дальнейшие исследования будут сосредоточены на дальнейшем уточнении моделей и оценке их практической эффективности в клинических условиях.

Annotation:

Purpose: To introduce novel dynamic structural parameters and evaluate their integration within a multimodal deep learning (DL) framework for predicting postoperative visual recovery in idiopathic full-thickness macular hole (iFTMH) patients. Methods: We utilized a publicly available longitudinal OCT dataset at five stages (preoperative, 2 weeks, 3 months, 6 months, and 12 months). A stage specific segmentation model delineated related structures, and an automated pipeline extracted quantitative...

ID: 2509.09227v1 eess.IV, cs.CV, I.4.6

arXiv PDF

📄 CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging

2025-09-11

Авторы:

Zhihao Zhao, Yinzheng Zhao, Junjie Yang, Xiangtong Yao, Quanmin Liang, Shahrooz Faghihroohi, Kai Huang, Nassir Navab, M. Ali Nasseri

## Контекст В последние годы применение фундаментальных моделей в медицинской имеджинге набирает обороты, особенно в области рационального диагностирования, где точный поиск сегментации ключевой для конкретизации диагноза. Однако, существующие методы сталкиваются с рядом значительных ограничений. В частности, они страдают от модальной неоднозначности в текстовых описаниях заболеваний, требуют ручных пробуждений для работы на основе SAM-технологий и не имеют универсального фреймворка, применимого к разным задачам и модальностям. Наша цель — выработать новую методологию, которая гармонизирует эти аспекты, обеспечивая доступ к широкой и одновременно точной сегментации в клинических условиях. ## Метод Мы предлагаем \CLAPS (CLIP-unified Auto-Prompt Segmentation), новый подход, который унифицирует итерационные процессы поиска сегментации, используя мощь моделей CLIP. В центре нашего подхода — процедура предобучения изображений на большом многомодальном наборе данных. Для преодоления недостатка данных и устранения несбалансированности распределения мы используем специальные текстовые признаки, называемые "модальными сигнатурами", для каждого типа изображений. Для автоматического выделения локальных лезионов мы используем GroundingDINO, который формирует пространственные области с пробуждением. Наконец, эти признаки и модальные сигнатуры объединяются с CLIP-оболочкой для управления SAM, обеспечивая автоматическое и точное выделение сегментации. ## Результаты Мы проверили нашу модель на 12 различных наборах данных, охватывающих 11 ключевых модальностей в клинической практике. За счет универсального фреймворка, \CLAPS показал значительный показатель общей точности и вытеснил бенчмарки в большинстве метрик. Эксперименты показали, что наш подход совпадает в качестве с специализированными моделями, предназначенными для конкретных задач, что демонстрирует гибкость и широту применения нашего подхода. ## Значимость Наш подход может использоваться в различных клинических задачах, включая сегментацию глазных заболеваний, в том числе с различными модальностями восприятия. Он предлагает значительные преимущества, такие как уменьшение времени труда врача и улучшение точности диагностики. Мы считаем, что наш метод может быть применен в широком спектре задач, от первичной диагностики до научного исследования, и становится одним из первых универсальных моделей для медицинских изображений. ## Выводы Мы предложили новую методологию, которая решает ключевые проблемы в поиске сегментации в медицинских изображениях. Будущие исследования будут направлены на улу

Annotation:

Recent advancements in foundation models, such as the Segment Anything Model (SAM), have significantly impacted medical image segmentation, especially in retinal imaging, where precise segmentation is vital for diagnosis. Despite this progress, current methods face critical challenges: 1) modality ambiguity in textual disease descriptions, 2) a continued reliance on manual prompting for SAM-based workflows, and 3) a lack of a unified framework, with most methods being modality- and task-specific...

ID: 2509.08618v1 cs.CV, I.4.6

arXiv PDF

📄 FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes

2025-09-10

Авторы:

Muraam Abdel-Ghani, Mahmoud Ali, Mohamed Ali, Fatmaelzahraa Ahmed, Mohamed Arsalan, Abdulaziz Al-Ali, Shidin Balakrishnan

## Контекст Рост популярности роботизированных минимально инвазивных операций в сфере медицины привел к тому, что глубокое обучение стало ключевым направлением в системах тренировки хирургов. Для эффективного обучения необходимо тщательное понимание компонентов сцены хирургической операции. Однако существующие модели имеют ограничения в том, что они недостаточно точно отличают анатомические объекты и стоковые инструменты на хирургических сценах. Недостаток в точности и представлении сложных сцен приводит к необходимости в развитии моделей семантической сегментации, которые могут обеспечить более точное разделение этих компонентов. Мы предлагаем новую модель Feature-Adaptive Spatial Localization (FASL-Seg), которая предназначена для эффективного анализа и сегментации объектов с разными уровнями детализации. ## Метод FASL-Seg основывается на двух основных потоках обработки, которые принимают во внимание разные уровни детализации. Низкоуровневый поток (LLFP) специализируется на тонкой детализации изображений, в то время как высокоуровневый поток (HLFP) сосредотачивается на контекстном понимании. Это позволяет модели быть более точной в различных задачах сегментации. Мы использовали архитектуру сверточных нейронных сетей с улучшенным механизмом адаптации для выделения разных типов источников данных. Модель обучалась на широко известных датасетах EndoVis18 и EndoVis17, которые включают объекты, инструменты и другие компоненты хирургических сцен. ## Результаты На EndoVis18 показано, что FASL-Seg достигла максимальной точности в сегментации частей и анатомических объектов (72.71% mIoU), что превышает лучшие результаты локальных моделей на 5%. Для сегментации инструментов, она показала результат 85.61% на EndoVis18 и 72.78% на EndoVis17, что также превосходит существующие модели. Наши результаты показывают, что модель обладает высокой точностью и постоянностью в разных классах, что демонстрирует ее эффективность в разных условиях. ## Значимость Этот подход может быть применен в медицинских областях, где необходима точная сегментация анатомических объектов и инструментов, например, в роботизированных операциях и медико-технических исследованиях. Он предлагает значительное улучшение точности и обеспечивает более гибкий подход к сегментации сложных сцен. Мы также выделяем потенциал модели в обучении для новых моделей, которые могут быть использованы для улучшения качества хирургических операций. ## Выводы FASL-Seg доказала свою эффективность в сегментации анатомических и инструментальных компонентов на хирургических сценах. Мы планируем про

Annotation:

The growing popularity of robotic minimally invasive surgeries has made deep learning-based surgical training a key area of research. A thorough understanding of the surgical scene components is crucial, which semantic segmentation models can help achieve. However, most existing work focuses on surgical tools and overlooks anatomical objects. Additionally, current state-of-the-art (SOTA) models struggle to balance capturing high-level contextual features and low-level edge features. We propose a...

ID: 2509.06159v1 eess.IV, cs.AI, cs.CV, I.4.6; I.4.8; J.3

arXiv PDF

📄 Preserving instance continuity and length in segmentation through connectivity-aware loss computation

2025-09-05

Авторы:

Karol Szustakowski, Luk Frank, Julia Esser, Jan Gründemann, Marie Piraud

#### Контекст В области биомедицинских изображений, таких как легкожидкостное микроскопирование, важно не только получить точные сегментационные маски, но также сохранить продолжительность и непрерывность изображений. Особенно это актуально при работе с длинными и тонкими структурами, такими как аксоны. Неправильная сегментация может привести к ошибкам в последующих этапах анализа, таких как расчет длины структур. Существующие подходы, ориентированные на вольность (валидность) и топологию, не всегда эффективны в решении этой задачи, особенно в условиях потери сигнала. Мы предлагаем новый подход, который сочетает в себе гибкость глубоких нейросетевых моделей с специально разработанными потерями, учитывающими непрерывность и топологию. #### Метод Мы предложили два новые метода, связанных с потерями: **Negative Centerline Loss** и **Simplified Topology Loss**. Они используют центральные линии и топологические признаки для улучшения непрерывности сегментационных масок. Наш подход также включает коррекцию пространственного разрешения и уменьшение размера изображений для улучшения вычислительной эффективности и точности. Мы применяем эти потери к Convolutional Neural Networks (CNNs), которые являются основной архитектурой для сегментационных задач. Наши функции потерь стремятся минимизировать неправильные разрывы в сегментации, особенно в условиях потери сигнала, чтобы сохранить непрерывность и точность длины структур. #### Результаты Мы провели эксперименты на датасете 3D светящейся микроскопии, содержащем изображения аксонов инициальных сегментов (AIS). Наши результаты показали, что внедрение Negative Centerline Loss и Simplified Topology Loss приводит к существенному снижению неправильных разрывов в сегментации, особенно в условиях потери сигнала. В результате, полученные маски имеют более высокую точность в длине, что является критически важной для расчетов в биологических приложениях. В сравнении с существующими методами, в том числе топологическими потерями, наши потери демонстрируют значительные улучшения в непрерывности и релевантности сегментационных масок. #### Значимость Наш подход может быть применен в различных биомедицинских задачах, таких как сегментация длинных структур в микроскопических изображениях. Он предоставляет значительные преимущества перед существующими подходами, включая улучшение точности расчетов длины и уменьшение ошибок в сегментации. Это может повлиять на развитие анализа данных в биологии и медицине, в том числе в области морфометрии и микроскопического анализа. #### Выводы Мы демонстрируем, что наш подход, основанный на новых потерях, способствует более точной

Annotation:

In many biomedical segmentation tasks, the preservation of elongated structure continuity and length is more important than voxel-wise accuracy. We propose two novel loss functions, Negative Centerline Loss and Simplified Topology Loss, that, applied to Convolutional Neural Networks (CNNs), help preserve connectivity of output instances. Moreover, we discuss characteristics of experiment design, such as downscaling and spacing correction, that help obtain continuous segmentation masks. We evalua...

ID: 2509.03154v1 cs.CV, I.4.6; I.2.10

arXiv PDF

📄 Hessian-Based Lightweight Neural Network HessNet for State-of-the-Art Brain Vessel Segmentation on a Minimal Training Dataset

2025-08-26

Авторы:

Alexandra Bernadotte, Elfimov Nikita, Mikhail Shutov, Ivan Menshikov

## Контекст Успешная и точная сегментация кровеносных сосудов в головном мозгу человека, полученных с помощью МРА (магнитно-резонансной ангиографии), является критически важной задачей в медицинских процедурах, таких как ремонт аневризм, операции зеленого шоссе и другие важные хирургические вмешательства. Однако текущие методы сегментации, такие как метод Франги или ручная сегментация, либо требуют большого количества ресурсов для ручной работы, либо недостаточно точны. Нейронные сети предлагаются как мощные инструменты для автоматизации этой задачи, но их развитие ограничено отсутствием доступных для обучения больших аннотированных данных. Настоящая работа адресует эту проблему, предлагая метод, который обеспечивает высокоточную сегментацию кровеносных сосудов с минимальными требованиями к обучающим данным. ## Метод Мы предлагаем HessNet — новую легковесную нейронную сеть, основанную на методах Гессиана. Она использует 6000 параметров и может работать даже на процессоре (без видеокарты). Метод включает в себя новый подход к сегментации, основанный на Гессианских матрицах, который позволяет эффективно обнаруживать и сегментировать комплексные трубчатые структуры. Такой подход позволяет использовать минимальное количество тренировочных данных, не снижая качество результата. Также в рамках проекта проведена аннотация 200 изображений МРА с помощью HessNet, после чего эти данные были расширены с помощью трех экспертов под наблюдением трех васкулярных хирургов. ## Результаты Выполненные эксперименты показали, что HessNet достигает современных результатов по точности сегментации кровеносных сосудов, даже при использовании минимального количества тренировочных данных. На основе 200 аннотированных изображений была построена большая выборка данных, полученная через семиуровное расширение под эгидой экспертов. Эта выборка позволяет значительно уменьшить затраты на ручную аннотацию, снизить требования к вычислительным ресурсам и увеличить точность сегментации. ## Значимость Метод HessNet имеет широкие области применения в нейрохирургии, ангиологии и других специальностях, требующих точной сегментации кровеносных сосудов. Он обеспечивает высокую точность с минимальными затратами на аннотацию и вычисления. Также HessNet позволяет создавать большие данные для обучения, которые используются для развития новых моделей в медицинской изображейной обработке. Этот подход сокращает время и ресурсы, необходимые для обучения, и предоставляет экспертам более качественные инструменты для выпол

Annotation:

Accurate segmentation of blood vessels in brain magnetic resonance angiography (MRA) is essential for successful surgical procedures, such as aneurysm repair or bypass surgery. Currently, annotation is primarily performed through manual segmentation or classical methods, such as the Frangi filter, which often lack sufficient accuracy. Neural networks have emerged as powerful tools for medical image segmentation, but their development depends on well-annotated training datasets. However, there is...

ID: 2508.15660v2 eess.IV, cs.CV, I.4.6; I.5.4; J.3

arXiv PDF

📄 Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset

2025-08-23

Авторы:

Alexandra Bernadotte, Elfimov Nikita, Mikhail Shutov, Ivan Menshikov

## Контекст Одним из ключевых аспектов успешных вмешательств в нейрохирургии является точная сегментация головных сосудов на магнитных резонансных изображениях. Эта задача критически важна для подготовки к операциям, таким как ремонт аневризмы или трубопрокладка. Несмотря на развитие медицинского искусственного интеллекта, актуальной проблемой остается недостаток качественных данных для обучения нейронных сетей. Аннотация данных часто выполняется вручную или с использованием классических методов, таких как фильтр Франги, которые часто недостаточно точны. Из-за недостатка данных и необходимости в эффективных решениях возникает потребность в новых подходах к автоматизированной сегментации головных сосудов. ## Метод Мы предлагаем HessNet — новую легковесную нейронную сеть семи слоев, основанную на матрицах Хесса, для трехмерной сегментации комплексных структур, таких как трубы. Наша сеть содержит всего 6000 параметров и может работать на процессоре, что значительно снижает ресурсоемкость обучения. Мы также разработали новую подборку данных на основе IXI MRA-изображений, которая включает в себя 200 семплов с подробной аннотацией головных сосудов, выполненной экспертами под наблюдением нейроvascularных специалистов. Этот подход обеспечивает высокую точность сегментации сосудов, даже при минимальном объеме обучающих данных. ## Результаты Наши эксперименты показали, что HessNet показывает высокую точность сегментации сосудов даже при ограниченном наборе тренировочных данных. Мы сравнили результаты с другими техниками, такими как Франги, и показали, что HessNet показывает значительно лучший результат. Добавляя только небольшое количество данных, мы достигли состояния технологий, что демонстрирует эффективность нашего подхода в условиях недостатка данных. Также, мы разработали полностью подготовленную подборку данных, которая может быть использована для дальнейших исследований. ## Значимость Наш подход может быть применен в различных областях, таких как нейрохирургия, для точной сегментации головных сосудов. Он уменьшает необходимость вручную аннотированных данных для обучения, что экономит время и ресурсы. Благодаря своей легковесной архитектуре, HessNet может быть использован на ресурс-ограниченных устройствах, таких как процессоры. Это открывает новые возможности для использования нейронных сетей в медицине, даже в условиях ограниченных вычислительных ресурсов. ## Выводы Мы представили новую легковесную нейронную сеть HessNet, которая позволяет эффективно сегментировать головные сосуды даже при небольшом количестве т

Annotation:

ID: 2508.15660v1 eess.IV, cs.CV, I.4.6; I.5.4; J.3

arXiv PDF

📄 Scalable Geospatial Data Generation Using AlphaEarth Foundations Model

2025-08-19

Авторы:

Luc Houriez, Sebastian Pilarski, Behzad Vahedi, Ali Ahmadalipour, Teo Honda Scully, Nicholas Aflitto, David Andre, Caroline Jaffe, Martha Wedner, Rich Mazzola, Josh Jeffery, Ben Messinger, Sage McGinley-Smith, Sarah Russell

## Контекст Геоспациальные данные являются ключевым инструментом для понимания и изучения планеты. Однако доступные данные часто ограничиваются определенными регионами, не покрывая всю территорию земного шара. Это ограничение снижает ценность данных для широкомасштабных анализов и приложений. Google DeepMind внедрила модель AlphaEarth Foundations (AEF), представляющую собой информационно-богатую глобальную геоспациальную структуру. Она предназначена для повышения качества и полноты данных в различных задачах. В данной работе рассматривается возможность использования модели AEF для расширения геоспациальных данных за пределы исходного региона. ## Метод Методология основывается на использовании AlphaEarth Foundations для расширения геоспациальных данных. Алгоритм построения модели состоит в том, что данные из исходного региона (например, USA) используются для обучения модели, которая затем применяется к новому региону (например, Канада). Используется оптимизация случайных леса и логистической регрессии для построения модели. Эти модели адаптируются для расширения данных, в том числе для высокоуровневого классификационного анализа. ## Результаты Для проверки метода проводился эксперимент над данными LANDFIRE Existing Vegetation Type (EVT), расширенными с USA в Канаду. Модель обучалась на данных EvtPhys (13 классов) и EvtGp (80 классов). В результате показано, что модели демонстрируют высокую точность классификации в USA (81%) и Канаде (73%). Хотя модели не полностью корректно классифицируют все классы, они показывают хорошую зернальность в точных классах. ## Значимость Этот подход имеет значимые применения в областях развития среды, геологии и других сфер, требующих глобальных геоспациальных данных. Он позволяет расширять область данных, которые ранее были ограничены региональными данными. Преимущества включают увеличение доступных данных, улучшение точности классификации и обеспечение адекватных ресурсов для широты задач, от управления природой до машинного обучения. ## Выводы Результаты экспериментов показали, что модели могут добавить значительное количество данных в геоспациальные наборы данных. Эта работа открывает возможности для расширения геоспациальных данных в новые регионы, охватывая новые географические зоны. Кроме того, данный подход может быть расширен на другие регионы и даже на различные классификационные модели, чтобы улучшить точность и разрешать предметные области, требующие глобальных данных.

Annotation:

High-quality labeled geospatial datasets are essential for extracting insights and understanding our planet. Unfortunately, these datasets often do not span the entire globe and are limited to certain geographic regions where data was collected. Google DeepMind's recently released AlphaEarth Foundations (AEF) provides an information-dense global geospatial representation designed to serve as a useful input across a wide gamut of tasks. In this article we propose and evaluate a methodology which ...

ID: 2508.11739v1 cs.LG, cs.CV, I.4.6; I.5.5

arXiv PDF