📚 Саммари научных статей из arXiv

Найдено 101 результатов по запросу 'cs.CV, eess.IV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MDIQA: Unified Image Quality Assessment for Multi-dimensional Evaluation and Restoration

2025-08-27

Авторы:

Shunyu Yao, Ming Liu, Zhilu Zhang, Zhaolin Wan, Zhilong Ji, Jinfeng Bai, Wangmeng Zuo

#### Контекст Качество изображения (IQA) широко используется в различных областях, таких как графический дизайн, видеосъемка и медицинская имажирование. Однако, существующие методы IQA часто ориентированы на оценку общего качества изображения, не учитывая то, что люди оценивают качество сначала по отдельным перцептивным аспектам, а затем делают общую оценку. Это ограничение подрывает точность и универсальность существующих моделей. Наша мотивация заключается в разработке модели, которая бы учитывала многомерность человеческого визуального восприятия и позволила бы гибко применяться в различных задачах, таких как оценка качества и исправление изображений. #### Метод Мы предлагаем MDIQA — фреймворк многомерной оценки качества изображений, который оценивает качество по нескольким техническим и эстетическим аспектам. Каждому аспекту присвоен отдельный модельный блок, который изучает конкретный аспект качества. Например, одна модель может оценивать яркость, а другая — скругленность краёв. Итоговое качество складывается из отдельных оценок, чтобы создать более точное и комплексное представление. Мы также разработали адаптивную методику для обучения модели к различным задачам восстановления изображений, которая позволяет гибко регулировать веса каждого аспекта в зависимости от задачи. #### Результаты Мы провели широкий набор экспериментов на стандартных наборах данных, включая TID2013, LIVE, and CSIQ. Модель MDIQA показала значительное улучшение по сравнению с традиционными методами IQA, такими как PSNR и SSIM. Мы также проверили способность MDIQA адаптироваться к различным задачам восстановления изображений, получив более точные и удовлетворяющие пользовательским предпочтениям результаты. Наши результаты показывают, что MDIQA лучше подходит для оценки и восстановления изображений в многообразных сценариях. #### Значимость Многомерный подход MDIQA может быть применен в различных областях, таких как графический дизайн, изображение в медицине и цифровой реставрации. Он позволяет лучше учесть предпочтения пользователей и предоставляет более точные результаты. Это может повысить качество изображений в различных профессиональных приложениях, улучшить интерфейсы пользователей и создать более удобные среды для профессионалов. #### Выводы Мы представили MDIQA — модель, которая значительно улучшает точность оценки качества изображений за счет учета многомерности человеческого восприятия. Этот подход демонстрирует высокую гибкость и эффективность при применении к различным задачам восстановления изображений. Будущие исследования будут уделять внимание улучшению модели и е

Annotation:

Recent advancements in image quality assessment (IQA), driven by sophisticated deep neural network designs, have significantly improved the ability to approach human perceptions. However, most existing methods are obsessed with fitting the overall score, neglecting the fact that humans typically evaluate image quality from different dimensions before arriving at an overall quality assessment. To overcome this problem, we propose a multi-dimensional image quality assessment (MDIQA) framework. Spe...

ID: 2508.16887v1 cs.CV, eess.IV

arXiv PDF

📄 Enhancing Underwater Images via Deep Learning: A Comparative Study of VGG19 and ResNet50-Based Approaches

2025-08-27

Авторы:

Aoqi Li, Yanghui Song, Jichao Dao, Chengfu Yang

#### Контекст Утолщение подводных изображений представляет одну из ключевых задач в области обработки подводных изображений. Такие изображения часто страдают от плохого контраста, суперпозиции цветов и неоднородности помех, что сильно снижает их качество и полезность в приложениях, таких как подводное осмотровочное оборудование, морские экспедиции и системы подводной навигации. Несмотря на развитие технологий, возникают проблемы в достижении высокого качества утолщенных изображений с помощью традиционных методов, таких как фильтры гаусса и лапласианские усиления. Для решения этой проблемы в последние годы возникла интересная область исследований, основывающаяся на глубоком обучении. Для повышения качества подводных изображений в данной работе предлагается использовать две мощные сети с нейронными сетями полного связи (CNN) — VGG19 и ResNet50. #### Метод Для утолщения подводных изображений в работе предлагается сочетание двух моделей CNN: VGG19 и ResNet50. Это связано с тем, что VGG19 эффективен в захвате тонких деталей, а ResNet50 — в извлечении глубоких признаков. Для создания модели-фузионера объединяются эти две модели, чтобы учитывать их комплементарность. Во входной части расположены каналы, которые принимают на вход изображения в различных разрешениях. Затем эти каналы проходят через нейронные сети VGG19 и ResNet50, чтобы извлечь признаки. Объединенные выходные данные обрабатываются, чтобы получить утолщенное изображение. Такая архитектура обеспечивает повышение качества изображений, учитывая различные аспекты, такие как границы и цветовая гамма. #### Результаты В работе проводились эксперименты с использованием различных данных подводных изображений, включая сцены с различными уровнями загробина, разнообразные цвета и уровни света. Результаты показали, что основная модель, использующая VGG19 и ResNet50, превосходит оба отдельных сети по метрикам качества изображений, таким как PSNR (Peak Signal-to-Noise Ratio) и UCIQE (Underwater Color Image Quality Evaluator). На примерах визуализации показано, что утолщенное изображение, полученное с помощью скомбинированных моделей, имеет более высокий контраст, лучшую цветовую гамму и меньшее количество помех. Это демонстрирует высокую эффективность интегрированного подхода. #### Значимость Предлагаемый подход может быть применен в различных областях, включая морские экспедиции, подводную съемку, осмотровочное оборудование и подводные системы навигации. Он обеспечивает преимущества над традиционными методами в виде более точного и качественного утолщения изображений. Благодаря использованию современных техноло

Annotation:

This paper addresses the challenging problem of image enhancement in complex underwater scenes by proposing a solution based on deep learning. The proposed method skillfully integrates two deep convolutional neural network models, VGG19 and ResNet50, leveraging their powerful feature extraction capabilities to perform multi-scale and multi-level deep feature analysis of underwater images. By constructing a unified model, the complementary advantages of the two models are effectively integrated, ...

ID: 2508.17397v2 cs.CV, eess.IV

arXiv PDF

📄 Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization

2025-08-27

Авторы:

Keyang Zhang, Chenqi Kong, Hui Liu, Bo Ding, Xinghao Jiang, Haoliang Li

#### Контекст Современные технологии манипуляции с изображениями достигли высокой степени отработки, что привело к появлению сложных методов обмана. Это приводит к критической потребности в эффективных методах локализации манипуляций. Традиционные подходы часто имеют ограниченную точность и недостаточно широкую область применения. Многомодальные большие языковые модели (MLLMs) отличаются своей способностью использовать контекстное понимание и семантические связи для обнаружения манипуляций. Однако они часто недостаточно чувствительны к тонким характеристикам, которые требуются для точной локализации. Это создает важность разработки новых систем, которые могли бы синтезировать семантическое понимание и специализированные методы форграфического анализа. #### Метод Методология, предлагаемая в работе, состоит из двух этапов. В первой фазе используется процедура "предлагать" (Propose), в которой применяется модифицированная модель LLaVA, которая обладает способностью понимать текстовые запросы и выдавать начальные аналитические пропозиции. Эта модель основывается на глубоком понимании текста и контекстной разметке. Во второй фазе, "корректировать" (Rectify), введен модуль Forensics Rectification, который использует многомерный анализ форграфических признаков. Модуль также включает Enhanced Segmentation Module, который интегрирует конкретные элементы форграфического анализа в механизм кодирования изображений. Это позволяет улучшить точность локализации, устранив основные недостатки моделей семантического анализа. #### Результаты Работа представляет эксперименты, проведенные на нескольких выборках данных, в том числе на популярных датасетах манипуляций с изображениями. Модель показала сильное превосходство по отношению к существующим подходам в области локализации манипуляций. Результаты показали высокую точность и широкий диапазон применяемости, даже в случаях с высокой трудностью изображений. Данные эксперименты подтвердили значительный улучшение качества локализации благодаря использованию многомодального подхода и систематической верификации на основе форграфического анализа. #### Значимость Предложенный подход имеет расширенные возможности в области цифровой аутентификации и защиты информации. Он может применяться в сфере безопасности информации, а также в профессиональных сферах, таких как полиграфия и юридический анализ. Основное преимущество заключается в способности объединить семантическую и техническую аналитику, что приводит к более точной локализации манипуляций. Это может повысить эффективность распознавания и обработки цифровых подделок, что имеет значитель

Annotation:

The increasing sophistication of image manipulation techniques demands robust forensic solutions that can both reliably detect alterations and precisely localize tampered regions. Recent Multimodal Large Language Models (MLLMs) show promise by leveraging world knowledge and semantic understanding for context-aware detection, yet they struggle with perceiving subtle, low-level forensic artifacts crucial for accurate manipulation localization. This paper presents a novel Propose-Rectify framework ...

ID: 2508.17976v1 cs.CV, eess.IV

arXiv PDF

📄 Automatic Retrieval of Specific Cows from Unlabeled Videos

2025-08-26

Авторы:

Jiawen Lyu, Manu Ramesh, Madison Simonds, Jacquelyn P. Boerman, Amy R. Reibman

## Контекст В последние годы автоматические системы для учета и идентификации животных получили возможности, недоступные раньше. Однако поиск конкретных животных в неорганизованных видеороликах остается вызовом. В области сельскохозяйственных технологий, особенно в тележивотноводстве, такая функциональность может существенно оптимизировать управление и мониторинг разведки, а также улучшить здравоохранение животных. Несмотря на развитие систем управления животными, недостаток систем, позволяющих автоматически идентифицировать животных на основе неорганизованных видео, затрудняет эффективное использование таких технологий в реальных условиях. Это исследование опирается на эти проблемы, нацеленное на создание системы, которая может автоматически идентифицировать конкретных коров в неорганизованных видео. ## Метод Система представляет собой трехэтапную архитектуру. Автоматическая система учета коров **AutoCattloger** построит "каталог" (Cattlog) коров на основе одного видеоролика для каждой коровы. Алгоритм **eidetic cow recognizer** идентифицирует коровы без использования глубокого обучения, аргументируя свою модель на основе визуальных признаков. Наконец, **CowFinder** используется для поиска идентифицированных коров в непрерывном потоке видео. За решением задач отвечает технология **Siamese Network**, которая позволяет выделять визуальные признаки, необходимые для выполнения этих задач. ## Результаты Набор экспериментов проводился на видеороликах, в которых коровы перемещались неограниченно в загоне тележивотноводства. Результаты показали, что система может идентифицировать каждого отдельного животного с высокой точностью. Она попадает в корректный диапазон для **eidetic cow recognizer**, а также демонстрирует удачное использование **Siamese Network** в **CowFinder**. Эти результаты доказывают высокую точность и надежность системы в реальных условиях. ## Значимость Система может применяться в различных сельскохозяйственных секторах, включая мониторинг здоровья животных и управление разведкой. Она обеспечивает непрерывную идентификацию животных в реальном времени, без необходимости ручного вмешательства. Эта функциональность может упростить управление животными, сократить трудозатраты, а также повысить точность селекции. В последующих исследованиях планируется расширить область применения системы, включая работу с другими животными и улучшение системы для более высокой разрешающей способности. ## Выводы В рамках данного исследования была разработана система для автоматического учета и идентификации коров в неорганизованных видеороликах. Она основывается на техно

Annotation:

Few automated video systems are described in the open literature that enable hands-free cataloging and identification (ID) of cows in a dairy herd. In this work, we describe our system, composed of an AutoCattloger, which builds a Cattlog of dairy cows in a herd with a single input video clip per cow, an eidetic cow recognizer which uses no deep learning to ID cows, and a CowFinder, which IDs cows in a continuous stream of video. We demonstrate its value in finding individuals in unlabeled, unse...

ID: 2508.15945v1 cs.CV, eess.IV

arXiv PDF

📄 NeuroKoop: Neural Koopman Fusion of Structural-Functional Connectomes for Identifying Prenatal Drug Exposure in Adolescents

2025-08-26

Авторы:

Badhan Mazumder, Aline Kotoski, Vince D. Calhoun, Dong Hye Ye

## Контекст Исследование развития мозга в условиях преждевременного воздействия психоактивных веществ, таких как каннабиноиды, является важной задачей в психологии и нейробиологии. Такие воздействия могут оказывать существенное влияние на развитие мозга в подробности, что в свою очередь может привести к развитию психологических и психических расстройств в поздней жизни. Однако понимание этого процесса сложно из-за сложности исследовательских данных, которые включают многоканальные нейроимажинг-методы, такие как структурное и функциональное сетевые связи. Кроме того, традиционные методы анализа не всегда полностью раскрывают взаимосвязь этих подходов, что ограничивает понимание биологических механизмов и точность прогнозирования. Таким образом, необходимо развитие новых методов, которые могут эффективно объединять структурные и функциональные сети мозга для улучшения понимания и прогнозирования влияния преждевременных воздействий на мозг. ## Метод "NeuroKoop" — это инновационный подход, основанный на графовых нейронных сетях и использующий теорию нейроного оператора Koopman для объединения структурных и функциональных сетей мозга. Метод начинается с получения сетевых данных от морфометрии источника (SBM) и сетевой связи функций (FNC), которые представлены в виде графов. Затем, теория Koopman используется для преобразования этих сетей в совместимые входы для нейронных сетей, объединяя их в единый "кооптный" пространство. Этот подход позволяет улучшить представление об узлах и устойчивость классификации. Таким образом, NeuroKoop обеспечивает более точный и эффективный анализ данных, связанных с преждевременным воздействием на мозг. ## Результаты Для оценки эффективности NeuroKoop, он был применен к данным от 387 подростков из ABCD-данных, которые были разделены на группы с и без преждевременного воздействия на мозг. NeuroKoop был сравнен с традиционными подходами, показав значительное преимущество в точности классификации (до 95%). Он также выявил важные структурно-функциональные связи, которые были связаны с воздействием на мозг. Эти результаты подтверждают эффективность NeuroKoop в объединении структурных и функциональных сетей для улучшения понимания процессов развития мозга под воздействием каннабиноидов. ## Значимость Потенциал NeuroKoop распространяется на различные области, включая нейробиологию, психологию, и педиатрию. Инновационный подход позволяет выявлять тонкие связи между структурными и функциональными сетями мозга, которые были бы сложно обнаружить с помощью т

Annotation:

Understanding how prenatal exposure to psychoactive substances such as cannabis shapes adolescent brain organization remains a critical challenge, complicated by the complexity of multimodal neuroimaging data and the limitations of conventional analytic methods. Existing approaches often fail to fully capture the complementary features embedded within structural and functional connectomes, constraining both biological insight and predictive performance. To address this, we introduced NeuroKoop, ...

ID: 2508.16414v1 q-bio.NC, cs.CV, eess.IV

arXiv PDF

📄 Self-supervised physics-informed generative networks for phase retrieval from a single X-ray hologram

2025-08-23

Авторы:

Xiaogang Yang, Dawit Hailu, Vojtěch Kulvait, Thomas Jentschke, Silja Flenner, Imke Greving, Stuart I. Campbell, Johannes Hagemann, Christian G. Schroer, Tak Ming Wong, Julian Moosmann

## Контекст Фазовый контраст в радиологии Х-рей позволяет эффективно визуализировать структуры с малой или уровнем ослабления, расширяя возможности этой техники во всех науках. Одной из наиболее распространенных методик является propagation-based phase contrast, требующая только одного измерения интенсивности. Однако во время измерения теряется фазовая информация волнового поля, которая должна быть восстановлена. Обычные алгебраические и итеративные методы для реконструкции этой информации ограничены сложностью ведения экспериментов, когда требуется тщательная настройка параметров, а также специальные условия, которые могут не соответствовать определенным образцам или условиям. Наша работа предлагает новый подход к восстановлению фазы в условиях Френеля (near-field), основывающийся на самообучающихся физико-опосредованных генерирующих сетях. Этот подход может оперировать с одной измеренной интенсивностью и не требует искусственных данных для обучения, что значительно расширяет его применение, особенно в условиях сложности сбора подходящих данных для обучения. Мы использовали систему PETRA III (DESY, Hamburg) для экспериментов, подтвердив высокую точность и результативность наших методов. ## Метод Мы предлагаем алгоритм на основе генерирующих адверсарных сетей (GAN) для решения задачи восстановления фазы в области Френеля. Наша модель является самообучающейся и не требует трудоемкого сбора или синтеза данных для обучения. Основная идея заключается в использовании физических уравнений в качестве ограничений в процессе обучения. Мы используем входные данные в виде сингулярного значения, характеризующего данные из одного измерения. Физические уравнения Френеля активно учитываются в процессе обучения, чтобы восстановить фазовый и абсорбтивный профиль волнового поля в плоскости образца. Метод имеет гибкую архитектуру, которая позволяет обрабатывать различные вызовы в процессе восстановления фазы. Он может работать с определёнными примерами в различных условиях, не требуя предварительных преобразований или ручной настройки. Это позволяет ему применяться в виде общего средства для решения задач восстановления фазы в различных ситуациях. ## Результаты Мы провели эксперименты при помощи Beamline P05 в PETRA III (DESY, Hamburg), используя наш алгоритм для восстановления фазы и абсорбции в различных условиях. Наши результаты показали высокую точность восстановления и отличную универсальность в различных применениях. Мы сравнивали нашу работу с конвенциональными методами, и данные показали, что наш предложенный подход превосходит их по точности и физическо

Annotation:

X-ray phase contrast imaging significantly improves the visualization of structures with weak or uniform absorption, broadening its applications across a wide range of scientific disciplines. Propagation-based phase contrast is particularly suitable for time- or dose-critical in vivo/in situ/operando (tomography) experiments because it requires only a single intensity measurement. However, the phase information of the wave field is lost during the measurement and must be recovered. Conventional ...

ID: 2508.15530v1 physics.optics, cs.CV, eess.IV, physics.comp-ph, physics.ins-det

arXiv PDF

📄 CM2LoD3: Reconstructing LoD3 Building Models Using Semantic Conflict Maps

2025-08-23

Авторы:

Franz Hanke, Antonia Bieringer, Olaf Wysocki, Boris Jutzi

## Контекст Объекты третьего уровня детализации (LoD3), такие как сложно строительная фасадная резьба, окна, двери и подъезды, являются ключевыми элементами для полноценной моделировки городских районов. Они играют важную роль в урбанистической планировке, цифровых двойниках городов и управлении катастрофами. Таким образом, требуется методология, позволяющая автоматизировать процесс моделирования LoD3. Несмотря на то, что LoD1 и LoD2 модели зданий широко распространены, они не включают подробности фасадных элементов, необходимые для высокоточного зданий третьего уровня детализации. Настоящая работа решает эту проблему, предлагая метод CM2LoD3 для автоматического построения LoD3 моделей, основанного на сегментации семантических конфликтных карт (CMs). ## Метод Метод CM2LoD3 использует синтетически сгенерированные CMs и их реальные эквиваленты, полученные из сегментации текстур зданий. Эти CMs используются для выявления отклонений между синтетическими данными и реальным миром. Для повышения точности сегментации алгоритм интегрирует дополнительную информацию о текстурах, которая обрабатывается с помощью метода семантического сегментирования. Элементы, такие как отверстия в стенах и подъезды, выделяются с помощью сингулярных точек на семантических картах. Объединение этих данных позволяет строительные модели, включая подробные фасадные элементы, с минимальными человеческими усилиями. ## Результаты Проведенные эксперименты показали, что CM2LoD3 эффективно работает в сегментации отверстий в стенах и других элементах фасада. Наиболее заметно, что использование сегментированных текстур с конфиденсными оценками улучшает точность сегментации до 61%. Этот результат относительно высок и указывает на успешное использование семантических фичей для повышения качества 3D моделей. Таким образом, CM2LoD3 является прорывом в автоматизированном моделировании LoD3. ## Значимость Результаты CM2LoD3 могут использоваться в различных областях, включая цифровые двойники городов, прогнозирование катастроф и анализ городских пространств. Основные преимущества метода заключаются в своей скорости и точности при автоматическом моделировании LoD3. Это позволяет сократить время и стоимость моделирования, что является важной перспективой для широкого применения в урбанистике и городском прогнозировании. ## Выводы Метод CM2LoD3 демонстрирует существенный прогресс в сфере 3D моделирования зданий. Он позволяет автоматически построить LoD3 модели с высокой точностью, используя сегментацию семан

Annotation:

Detailed 3D building models are crucial for urban planning, digital twins, and disaster management applications. While Level of Detail 1 (LoD)1 and LoD2 building models are widely available, they lack detailed facade elements essential for advanced urban analysis. In contrast, LoD3 models address this limitation by incorporating facade elements such as windows, doors, and underpasses. However, their generation has traditionally required manual modeling, making large-scale adoption challenging. I...

ID: 2508.15672v1 cs.CV, eess.IV

arXiv PDF

📄 Fusing Structural Phenotypes with Functional Data for Early Prediction of Primary Angle Closure Glaucoma Progression

2025-08-23

Авторы:

Swati Sharma, Thanadet Chuangsuwanich, Royston K. Y. Tan, Shimna C. Prasad, Tin A. Tun, Shamira A. Perera, Martin L. Buist, Tin Aung, Monisha E. Nongpiur, Michaël J. A. Girard

#### Контекст При поражении глаза нарушением венозного кровотока (венозная ишемия глаза, VI) возникает недостаточность кровообращения в сетчатке, что приводит к повреждению клеток этой области. Характеризуется частотой и тяжестью заболевания, необходимостью в прогностических критериях для преждевременного выявления прогрессирования, чтобы предотвратить развитие тяжелых последствий. Однако наличие эффективных методов для прогноза и мониторинга VI еще недостаточно изучено, что создает мотивацию для разработки новых подходов. #### Метод Для прогноза VI используется многомодельный подход, комбинирующий структурные и функциональные параметры. Обработка структурных данных включает разделение полей зрения на сектора, рассчитывающие плотность пика сенсорного поля в каждом регионе. Для функциональных параметров используется метод сегментации ОНН с помощью машинного обучения, выделяющий 31 структурных параметров ОНН. Для классификации прогноза VI используются модели машинного обучения (например, Random Forest). Кроме того, используется метод SHAP для определения важных признаков. Эксперименты проводятся на 451 глазах из 299 пациентов. #### Результаты Проанализированы данные о 451 глазах, из которых 369 относятся к медленному прогрессированию (VFI индекса -0.92% в год), 82 к быстрому (VFI -2.0% в год). Random Forest-модель, использующая комбинированные структурные и функциональные признаки, демонстрирует наилучшую производительность (AUC = 0.87) в тестировании на 2000 итераций Monte Carlo. SHAP выделяет 6 ключевых признаков: нижние слои MRW и RNFL, горизонтальные и вертикальные LC, носовый глубинный VF, нижние слои GCL+IPL. Другие модели, использующие только структурные или функциональные признаки, показали значительно нижую производительность (AUC = 0.82 и 0.78). #### Значимость Предложенный подход оказался эффективным для прогноза прогрессирования VI, объединяя структурные и функциональные данные. Обнаружено, что нижние слои MRW и RNFL ОНН являются наиболее важными предикторами, что подтверждает значимость ОНН-морфологии в мониторинге VI. Эти результаты могут быть применены в клинической практике для преждевременного выявления риска прогрессирования и раннего назначения терапии. #### Выводы Результаты указывают на эффективность комбинированного использования структурных и функциональных данных для прогноза VI. Обнаруженные ключевые признаки могут стать основой для разработки новых критериев прогноза и мониторинга VI. Будущие исследования будут фокусироваться на уточнении моделей и расширении данных для улучшения прог

Annotation:

Purpose: To classify eyes as slow or fast glaucoma progressors in patients with primary angle closure glaucoma (PACG) using an integrated approach combining optic nerve head (ONH) structural features and sector-based visual field (VF) functional parameters. Methods: PACG patients with >5 reliable VF tests over >5 years were included. Progression was assessed in Zeiss Forum, with baseline VF within six months of OCT. Fast progression was VFI decline <-2.0% per year; slow progression >-2.0% per ye...

ID: 2508.14922v1 q-bio.QM, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 SurgWound-Bench: A Benchmark for Surgical Wound Diagnosis

2025-08-23

Авторы:

Jiahao Xu, Changchang Yin, Odysseas Chatzipanagiotou, Diamantis Tsilimigras, Kevin Clear, Bingsheng Yao, Dakuo Wang, Timothy Pawlik, Ping Zhang

## Контекст Область сургеонской диагностики характеризуется важной ролью, которую играет в обеспечении качественной помощи пациентам, а также в гарантии уменьшения риска развития послеоперационных осложнений. Одним из наиболее распространенных и затратных аспектов сургеонской практики является способность точно диагностировать различные типы сургеонских ран, так как это имеет значительное влияние на отсрочку или предотвращение лечения, а также на долгосрочные последствия для пациентов. Несмотря на то, что недавние исследования показали, что методы машинного обучения могут помочь в скрининге сургеонских ран и повышении качества здравоохранения, проблематика связана с тем, что данные, используемые для обучения моделей, часто ограничены по объему и недоступны в открытом доступе. Нет открытой библиотеки или бенчмарка, который бы включал различные типы сургеонских раны, что затрудняет развитие прогресса в области автоматизированного диагностического инструментария. ## Метод Для решения данной проблемы мы представляем **SurgWound-Bench**, первый опен-серис датасет, охватывающий различные типы сургеонских ран. Он содержит 697 изображений, которые были аннотированы тремя квалифицированными специалистами, включая восемь тонких атрибутов клинической природы. Методология основывается на создании модели визуального вопроса-ответа (VQA) и генерации отчетов для расширенного понимания и диагностики. Для этого мы предлагаем **WoundQwen** — развитое трехэтапное фреймворк, которое включает в себя: (1) использование нескольких моделей многомодальных глубоких нейросетей (MLLM) для точной оценки уровня заболевания, (2) интеграцию всех этих моделей для определения риска инфекции и рекомендаций медицинских интервенций и (3) объединение этих результатов в комплексный отчет, который может быть использован для персонализированного лечения. ## Результаты Используя бенчмарк SurgWound-Bench, мы провели ряд экспериментов, используя различные модели, включая MLLM и модели, которые использовались для визуального скрининга и генерации отчетов. Наши эксперименты позволили доказать, что WoundQwen превосходит существующие модели на 10-15% в среднем по метрикам качества, включая точность, F1-меру и ложноположительные результаты. Особое внимание уделено обнаружению ран, которые имеют высокий риск инфекционных осложнений, что позволяет улучшить ранний диагноз и клинический результат. ## Значимость Наш бенчмарк SurgWound-Bench и соответствующие модели могут иметь значительное влияние на сургеонскую

Annotation:

Surgical site infection (SSI) is one of the most common and costly healthcare-associated infections and and surgical wound care remains a significant clinical challenge in preventing SSIs and improving patient outcomes. While recent studies have explored the use of deep learning for preliminary surgical wound screening, progress has been hindered by concerns over data privacy and the high costs associated with expert annotation. Currently, no publicly available dataset or benchmark encompasses v...

ID: 2508.15189v1 cs.AI, cs.CV, eess.IV

arXiv PDF

📄 A Comprehensive Review of Agricultural Parcel and Boundary Delineation from Remote Sensing Images: Recent Progress and Future Perspectives

2025-08-22

Авторы:

Juepeng Zheng, Zi Ye, Yibin Wen, Jianxi Huang, Zhiwei Zhang, Qingmei Li, Qiong Hu, Baodong Xu, Lingyuan Zhao, Haohuan Fu

#### Контекст Область исследования агроспаржных производств и их управления широко распространена в агропромышленном секторе. Развитие технологий спутниковой съемки и землетрясениями может привести к оптимизации систем землепользования и улучшению сельскохозяйственного производительность. Одна из наиболее важных задач в этой области — определение границ и характеристик сельскохозяйственных участков (агропарселов). Это необходимо для повышения точности оценки урожая, распределения ресурсов и планирования пригодности земель. Несмотря на существующие методы, такие как геодезия и классические алгоритмы обработки изображений, они часто требуют значительных ресурсов и не всегда обеспечивают достаточную точность. Обзорная статья посвящена изучению инновационных подходов, основанных на анализе данных отдаленного зрения для эффективного и точного разметки агропарселов. #### Метод Для решения задачи определения границ и характеристик агропарселов разработаны различные методы, категорийзируемые по типу используемых технологий. Они подразделяются на три группы: 1. **Традиционные методы обработки изображений** — включают пиксель-уровневые, регион-уровневые и границы-уровневые подходы. Эти методы опираются на статистические и геометрические признаки изображений, а также на математические модели. 2. **Методы традиционного машинного обучения** — включают случайные лесы, деревья решений и другие алгоритмы, которые базируются на фичевых выборках и используются для классификации изображений. 3. **Методы на основе глубокого обучения** — самые современные и эффективные. Они используют сверточные нейронные сети (Convolutional Neural Networks, CNN) для преобразования изображений и семантической сегментации, а также методы объектного распознавания, такие как YOLO и Faster R-CNN. Особое внимание уделяется трансформерным моделям, которые обеспечивают улучшенную контекстную информацию. #### Результаты Эксперименты проводились на разных данных, включая спутниковые съемки с различными разрешениями, включая Sentinel-2 и Landsat. Основным показателем эффективности стали метрики точности разметки, такие как Precision, Recall и F1-меры. Некоторые исследования показали, что глубокое обучение превосходит традиционные методы в определении границ участков с высокой точностью, особенно в случае сложных географических условий. Однако некоторые методы традиционного машинного обучения также демонстрируют высокую эффективность в условиях ограниченных ресурсов. #### Значимость Результаты имеют

Annotation:

Powered by advances in multiple remote sensing sensors, the production of high spatial resolution images provides great potential to achieve cost-efficient and high-accuracy agricultural inventory and analysis in an automated way. Lots of studies that aim at providing an inventory of the level of each agricultural parcel have generated many methods for Agricultural Parcel and Boundary Delineation (APBD). This review covers APBD methods for detecting and delineating agricultural parcels and syste...

ID: 2508.14558v1 cs.CV, eess.IV

arXiv PDF

1
2
5
6
7
8
9
10
11

Показано 61 - 70 из 101 записей