📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Harnessing Group-Oriented Consistency Constraints for Semi-Supervised Semantic Segmentation in CdZnTe Semiconductors

2025-08-20

Авторы:

Peihao Li, Yan Fang, Man Liu, Huihui Bai, Anhong Wang, Yunchao Wei, Yao Zhao

## Контекст Cadmium Zinc Telluride (CdZnTe) — материал, широко применяющийся в сенсорах для детекторов гамма-излучения. Однако, эталонная микроскопия CdZnTe-материала сталкивается с значительными вызовами во время анализа, в частности, низкий контраст поверхности и размытые границы дефектов. Эти особенности делают аннотацию изображений сложной и требуют многопроходного пересмотра для точного сравнения с гауссианским следом. Более того, текущие подходы к получению почти-супервизированных (semi-supervised semantic segmentation, SSS) моделей часто ограничены простыми методами многоклассовой классификации, которые не учитывают комплексные групповые зависимости в данных. Это приводит к высокой ошибке в предсказаниях, особенно в зонах с низким контрастом. Наша мотивация заключается в разработке подхода, который бы полностью использовал групповые согласования в данных, чтобы улучшить точность и уменьшить ошибки в семантической сегментации CdZnTe-изображений. ## Метод Мы предлагаем Intra-group Consistency Augmentation Framework (ICAF), который оптимизирует процесс группового анализа изображений CdZnTe. Главным инструментом является Intra-group View Sampling (IVS), метод, который стратегически выбирает и статистически сравнивает множество представлений каждого дефекта, учитывая их много-к-один связь с одним определенным Ground Truth (GT). Для улучшения представления консистенции мы вводим Pseudo-label Correction Network (PCN), состоящий из двух модулей. Первый модуль, View Augmentation Module (VAM), динамически синтезирует подробные границы с помощью свертки нескольких видов группы. Второй модуль, View Correction Module (VCM), интерактивно исправляет псевдомаркировки с помощью динамического выделения самых важных регионов на изображении, уменьшая шум и улучшая оценку. Эти модели взаимодействуют с базовой архитектурой DeepLabV3+ на базе ResNet-101, чтобы обеспечить точные пограничные и семантические предсказания. ## Результаты Мы провели эксперименты на датасете CdZnTe, используя только 2 групповые аннотации (0.5% от всего набора). Наш подход показал метрику mIoU (mean Intersection over Union) в 70.6%, что значительно превосходит стандартные методы. Мы также провели анализ точности предсказаний в зонах с низким контрастом, показав, что ICAF менее подвержен ошибкам и более устойчив к биазу подтверждения. Визуальное сравнение предсказаний стандартных моделей и ICAF показало, что наш подход лучше характеризует границы дефектов и уменьшает "шумные" предсказания. Данные эксперименты подтверждают, что ICAF является эффективным инструментом для решения проблем семантической сегментации CdZnTe-изображений. ## Значимо

Annotation:

Labeling Cadmium Zinc Telluride (CdZnTe) semiconductor images is challenging due to the low-contrast defect boundaries, necessitating annotators to cross-reference multiple views. These views share a single ground truth (GT), forming a unique ``many-to-one'' relationship. This characteristic renders advanced semi-supervised semantic segmentation (SSS) methods suboptimal, as they are generally limited by a ``one-to-one'' relationship, where each image is independently associated with its GT. Such...

ID: 2508.12766v1 cs.CV, cs.AI

arXiv PDF

📄 Vehicle detection from GSV imagery: Predicting travel behaviour for cycling and motorcycling using Computer Vision

2025-08-20

Авторы:

Kyriaki, Kokka, Rahul Goel, Ali Abbas, Kerry A. Nice, Luca Martial, SM Labib, Rihuan Ke, Carola Bibiane Schönlieb, James Woodcock

#### Контекст Общественное здоровье напрямую зависит от транспортных систем, которые влияют на виды физической активности, возникающие риски травмирования и экспозицию к загрязнению воздуха. Однако данные о поведении путешественников, в частности о модах велосипедизма и мотоциклизма, значительно недостаточны, особенно на международном уровне. Столкнувшись с этой проблемой, авторы предложили использовать новый подход, в котором были использованы специализированные алгоритмы компьютерного зрения для выявления моделей движения в городах по всему миру. #### Метод Для решения этой задачи был применен глубокое обучение с использованием модели YOLOv4. Этот алгоритм был усовершенствован с помощью изображений, полученных из Google Street View (GSV), которые были собраны из 185 городов по всему миру. Были выделены 8000 изображений для каждого города, на которых проводилась обучающая и тестовая обработка. Были проанализированы количество распознанных мотоциклов и велосипедов, что позволило сформировать модели предсказания для каждого типа транспорта. Для обеспечения точности результатов была введена модель регрессии бета, которая учитывала такие факторы, как плотность населения и количество распознанных объектов на изображениях. #### Результаты Исследование показало, что модель YOLOv4 достигла средней точности приблизительно 89% при распознавании велосипедов и мотоциклов в изображениях GSV. Модель регрессии бета, нацеленная на предсказание мод катания на велосипеде и мотоцикле, продемонстрировала значительное погрешность в предсказании. Значительно выше был коэффициент корреляции для мотоциклов (0.78) по сравнению с велосипедами (0.51). Были проведены дополнительные тесты на 60 городов, из которых были получены новые оценки мод в этих регионах. #### Значимость Результаты исследования могут быть использованы для моделирования транспортных систем, анализа экологических проблем, а также для разработки стратегий повышения безопасности путешественников. Благодаря приложению компьютерного зрения на изображениях GSV, данные о поведении путешественников могут быть эффективно собраны и анализированы, что позволит улучшить стратегии городского транспорта и безопасность. #### Выводы Предложенный подход позволил сформировать основы для эффективного использования изображений GSV в анализе городских транспортных систем. Однако необходимо продолжительные исследования для улучшения учета локальных факторов и деперерсонификации данных, чтобы повысить надежность и точность результатов.

Annotation:

Transportation influence health by shaping exposure to physical activity, air pollution and injury risk. Comparative data on cycling and motorcycling behaviours is scarce, particularly at a global scale. Street view imagery, such as Google Street View (GSV), combined with computer vision, is a valuable resource for efficiently capturing travel behaviour data. This study demonstrates a novel approach using deep learning on street view images to estimate cycling and motorcycling levels across dive...

ID: 2508.12794v2 cs.CV, cs.AI

arXiv PDF

📄 Next Visual Granularity Generation

2025-08-20

Авторы:

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

#################### ## Контекст #################### Современные технологии в области изображений стремятся преодолеть пределы реалистичности и точности, предлагая новые подходы к генерации изображений. Одна из самых вызовов в этой области — поддерживать тонкую контрольность над процессом генерации при сохранении высокого качества изображений. Одним из важных аспектов этой задачи является управление "гранулярностью" изображений, то есть способностью генерировать изображения на разных уровнях детализации. Настоящая статья предлагает новый подход, который структурирует пространство гранулярности в целях более точного и эффективного управления процессом генерации. #################### ## Метод #################### Авторы предлагают метод, основанный на декомпозиции изображений в последовательность структурированных элементов, где каждый элемент имеет одинаковую разрешающую способность, но отличается количеством уникальных токенов. Это позволяет представить изображение в разных уровнях детализации — от общей структуры до мелких деталей. Новый подход, названный Next Visual Granularity (NVG), генерирует изображения последовательно, начиная с пустого изображения и постепенно улучшая его, добавляя детали в порядке возрастающей гранулярности. Этот процесс кодирует иерархическую представление, которая обеспечивает тонкую контрольность над каждым этапем генерации. #################### ## Результаты #################### Чтобы проверить эффективность NVG, авторы провели ряд экспериментов на датасете ImageNet. Они обучили серию моделей NVG для класс-условной генерации изображений и сравнили результаты с существующими методами, такими как VAR. Результаты показали, что NVG не только повышает FID-скоры (например, от 3.30 до 3.03 для одного эксперимента), но также демонстрирует более высокую точность и детализацию в генерировании изображений. Это демонстрирует преимущество NVG в обеспечении тонкого контроля над гранулярностью изображений. #################### ## Значимость #################### Предложенный подход имеет широкое применение в сферах, требующих точного контроля над процессом генерации изображений, таких как графические искусства, виртуальная реальность и машинное зрение. Его преимущества включают в себя точность генерации, эффективность в ресурсопотреблении и гибкость в регулировании детализации изображений. Этот подход может иметь потенциал для расширения границ возможностей в искусственном интеллекте и графическом дизайне. #################### ## Выводы #################### Next Visual Granularity (NVG) представляет собой новый подход к генерации изображений, который достигает высокого качества изображений и тонкого контро

Annotation:

We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global l...

ID: 2508.12811v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CTFlow: Video-Inspired Latent Flow Matching for 3D CT Synthesis

2025-08-20

Авторы:

Jiayi Wang, Hadrien Reynaud, Franciskus Xaverius Erick, Bernhard Kainz

#### Контекст Генерируемое моделирование целых томов компьютерной томографии (CT), определяемых клиническими отчетами, может существенно ускорить научные исследования, обеспечивая данные для гибридных исследований, приватных синтезированных образов и уменьшая запреты регуляторов на использование пациентских данных. Несмотря на стабильный рост в области медицинского искусственного интеллекта (AI), существуют проблемы, связанные с ограниченностью доступных данных, высокими затратами и трудностями в соответствии с приватностью. Недавно, выпущенный CT-RATE, большой набор 3D CT-томов с их клиническими отчетами, открыл новые возможности для тренировки мощных моделей генеративного моделирования. В этой работе, мы предлагаем CTFlow, модель трансформера с латентным потоком видео, определенной на 0.5B параметров, которая может генерировать целые тональные томовые образы, определяемые клиническими отчетами. #### Метод Мы применяем архитектуру латентного потока, определенную A-VAE из FLUX, и используем CT-CLIP, чтобы кодировать клинические отчеты. Модель CTFlow формирует томовые тома с помощью принципов авторегрессии: вначале, генерируется первый набор срезов тома с использованием только клинических отчетов, а затем, для последующих срезов, используется предыдущий набор срезов совместно с клиническим отчетом. Это позволяет сохранить трастовые изменения между срезами, сохранив память и ресурсы вычислений. Мы развиваем нашу модель с помощью подхода авторегрессии для генерации томов, который учитывает последовательность срезов, которые могут поочередно генерироваться. #### Результаты Мы проводим ряд экспериментов для оценки качества генерации томов CT в сравнении с другими текущими моделями. Мы используем данные из CT-RATE, чтобы оценить показатели FID, FVD, IS и CLIP, чтобы оценить темпоральную консистентность, разнообразие изображений и соответствие текста-изображению. Наши результаты показывают, что CTFlow превосходит другие модели по всем этим показателям, получая более высокое согласованность времени, разнообразие изображений и точность текста-изображения. #### Значимость CTFlow может применяться в синтезе томов CT для множества задач, таких как датагенерация для редких заболеваний, обучение моделей медицинского AI без пациентских данных, и уменьшение трудностей регуляторов. Её мощь заключается в лучшем выравнивании текста и изображений, высокой разнообразности генерируемых изображений и лучшей тепловой консистентности между срезами. Это может привести к новым возможностям в медицинских исследованиях, диагностике и обучению моделей AI. #### В

Annotation:

Generative modelling of entire CT volumes conditioned on clinical reports has the potential to accelerate research through data augmentation, privacy-preserving synthesis and reducing regulator-constraints on patient data while preserving diagnostic signals. With the recent release of CT-RATE, a large-scale collection of 3D CT volumes paired with their respective clinical reports, training large text-conditioned CT volume generation models has become achievable. In this work, we introduce CTFlow...

ID: 2508.12900v1 cs.CV, cs.AI

arXiv PDF

📄 SEDEG:Sequential Enhancement of Decoder and Encoder's Generality for Class Incremental Learning with Small Memory

2025-08-20

Авторы:

Hongyang Chen, Shaoling Pu, Lingyu Zheng, Zhongwu Sun

#### Контекст Современные методы искусственного интеллекта (ИИ) часто сталкиваются с проблемой **катастрофического забывания** при решении задач классификации в условиях непоследовательного обучения (incremental learning). Эта проблема возникает из-за невозможности хранить большие наборы данных из прошлых задач, что приводит к потере знаний о старых классах при обучении на новых. Таким образом, целью многих исследований является развитие методов, позволяющих сохранять общую значимость предыдущих знаний и обеспечивать высокую точность классификации для новых классов. Особенно актуальным этот вопрос становится при использовании моделей с ограниченной памятью, где обучение должно происходить с минимальными ресурсами. #### Метод SEDEG — это двухступенчатый фреймворк, ориентированный на повышение общего потенциала модели **Vision Transformer (ViT)** в задачах классификации в условиях непоследовательного обучения. Основная характеристика SEDEG заключается в том, что он расширяет общую значимость как **Decoder**, так и **Encoder**, чтобы выработать более универсальные представления. Первый этап фреймворка повышает конкретность представлений, используя методы **feature boosting**, чтобы обеспечить более широкое понимание изображений. Во втором этапе используется **knowledge distillation (KD)**, который позволяет уменьшить модель, но при этом сохранить важные знания. Затем, вновь полученная модель повышает универсальность **Decoder**, чтобы обеспечить более сбалансированные классификационные границы. #### Результаты На трёх бенчмарк-датасетах (CIFAR-100, Tiny-ImageNet и ImageNet-FS) SEDEG показал существенный выигрыш в точности классификации в сравнении с основными подходами к классификации в условиях непоследовательного обучения. В частности, SEDEG достиг лучшего баланса между общей полезностью модели и требованиями к памяти, что делает её идеально подходящей для скромных моделей. Оценки эффективности показывают, что использование **feature boosting** увеличивает общую точность на 3-5%, а KD-методы позволяют сократить размер модели без потери качества. #### Значимость SEDEG может быть применена в различных областях, где необходимо обучение моделей в условиях ограниченной памяти, например, в мобильных приложениях, автомобильных технологиях и медицине. Её преимущество в том, что она эффективно решает проблему инкапсуляции знаний из прошлых задач, что делает её более гибкой и производительной. Благодаря тому, что модель уменьшается, она экономит ресурсы и позволяет добиться более быстрого решения задач. #### Выводы SEDEG демонстрирует эффективность при сохранении баланса между общей полезностью и памятью. Она открывает новые

Annotation:

In incremental learning, enhancing the generality of knowledge is crucial for adapting to dynamic data inputs. It can develop generalized representations or more balanced decision boundaries, preventing the degradation of long-term knowledge over time and thus mitigating catastrophic forgetting. Some emerging incremental learning methods adopt an encoder-decoder architecture and have achieved promising results. In the encoder-decoder achitecture, improving the generalization capabilities of both...

ID: 2508.12932v1 cs.CV, cs.AI

arXiv PDF

📄 Multi-Phase Automated Segmentation of Dental Structures in CBCT Using a Lightweight Auto3DSeg and SegResNet Implementation

2025-08-20

Авторы:

Dominic LaBella, Keshav Jha, Jared Robbins, Esther Yu

## Контекст Cone-beam computed tomography (CBCT) широко используется в стоматологии для трехмерного визуализации зубов и окружающих их тканей. Этот метод позволяет эффективно определять патологии, такие как заболевания пульпы и периапикальных проявов, и улучшать планирование радиотерапии в заболеваниях головы и шеи. Однако автоматизированный анализ CBCT-снимков с целью сегментации зубных и раковых имплантационных структур является сложной задачей из-за сложности определения границ и различий в структурах. Наша команда DLaBella29 приняла участие в MICCAI 2025 ToothFairy3 Challenge, сфокусировавшись на многоклассовой сегментации зубов с помощью глубокого обучения. ## Метод Мы использовали MONAI Auto3DSeg, основанный на архитектуре 3D SegResNet, для создания многоэтапной системы сегментации. Набор данных ToothFairy3 (63 CBCT-сканы) был использован для обучения модели с 5-классовым кросс-валидацией. Для повышения точности предварительная обработка включала переразрешение изображений до 0.6 мм и клиппинг интенсивности изображений. Фаза 1 сегментации предусматривала объединение предсказаний с помощью Multi-Label STAPLE для получения обобщенных меток зубов. Затем, в фазе 2, мы применяли тесточную обработку вокруг легко сегментируемых мандибул, чтобы уточнить сегментацию нервных структур. Этот подход позволил достичь среднего Dice 0.87 на наборе валидации. ## Результаты Наша модель показала высокую точность и охват на сложных структурах зубов, включая нервные и имплантационные структуры. Мы также проанализировали разницу в полученных результатах для различных типов зубов и структур. Эта модель доказала свою эффективность в точном определении границ зубных и неверийных структур, что может упростить диагностику и планирование лечения. ## Значимость Наш подход может быть применен в радиотерапии, где точная сегментация зубов и окружающих тканей критична для планирования лечения. Он также может быть использован в диагностике зубных и раковых заболеваний, повышая точность и эффективность в области стоматологии. Этот метод обеспечивает повышение качества и экономичность в работе стоматологов и онкологов. ## Выводы Наше исследование показывает, что глубокое обучение может эффективно решать проблему сегментации зубов на CBCT-снимках. Мы планируем расширить набор данных и улучшить модель, чтобы она могла обрабатывать более сложные случаи с лучшей точностью. Эти улучшения могут положительно сказаться на качестве здравоохранения и улучшить результаты лечения.

Annotation:

Cone-beam computed tomography (CBCT) has become an invaluable imaging modality in dentistry, enabling 3D visualization of teeth and surrounding structures for diagnosis and treatment planning. Automated segmentation of dental structures in CBCT can efficiently assist in identifying pathology (e.g., pulpal or periapical lesions) and facilitate radiation therapy planning in head and neck cancer patients. We describe the DLaBella29 team's approach for the MICCAI 2025 ToothFairy3 Challenge, which in...

ID: 2508.12962v1 cs.CV, cs.AI

arXiv PDF

📄 ORBIT: An Object Property Reasoning Benchmark for Visual Inference Tasks

2025-08-19

Авторы:

Abhishek Kolari, Mohammadhossein Khojasteh, Yifan Jiang, Floris den Hengst, Filip Ilievski

## Контекст Органическое развитие визионных языковых моделей (VLMs) демонстрирует замечательные достижения в решении различных задач визуального понимания и визуального вопроса-ответа (VQA). Однако, несмотря на эти успехи, остается неясно, могут ли эти модели выполнять умственные операции, такие как абстракция и рациональное рассуждение о признаках природных объектов. В частности, человеческое рассуждение о природных объектах опирается на распознавание и интерпретацию не только основных физических и функциональных свойств (например, цвет, размер, материал), но и более высокоуровневых абстракций (например, целостных свойств и поведенческих свойств). Несовершенство нынешних VQA-бенчмарков заключается в том, что они сочетают в себе перцепцию и рациональное мышление, что делает их менее представительными в отношении логических оснований. Данный проект построен на этих основаниях и создает ORBIT, новый бенчмарк, ориентированный на экстенсивное тестирование рациональности моделей VQA в области визуального понимания. ## Метод ORBIT представляет собой расширенный подход к созданию бенчмарка для тестирования визуального понимания, основывающийся на работе с объектными свойствами. Он включает три типа изображений (синтетические, ретроспективные, реалистичные), три уровня рациональности (основные, средние, высокие), и четыре атрибутивные меры (число, цвет, материал, функциональный характер). Базируясь на этих мерах, ORBIT построен на основе теории общего знания и предлагает 360 изображений с 1,080 вопросами подсчета (count-based), нацеленными на измерение уровня рациональности моделей. Бенчмарк включает широкий спектр ситуаций для тестирования, включая реалистичные сценарии и противофактические сценарии, которые требуют рациональной оценки физических и функциональных свойств. Таким образом, ORBIT представляет собой систематическую методологию для оценки объектной рациональности в VQA. ## Результаты Результаты экспериментов показали, что 12 текущих лучших VLMs в нулевом шот-режиме сталкиваются с значительными ограничениями в сравнении с человеческими результатами. Наиболее успешная модель достигла только 40% точности, что намного ниже уровня человеческой производительности. Особенно сильно все модели сталкиваются с реалистичными (фотографическими) изображениями, противофактическим рассуждением о физических и функциональных свойствах, а также с более высокими числовыми оценками. Эти результаты подтверждают значительные проблемы VLMs в области визуального рас

Annotation:

While vision-language models (VLMs) have made remarkable progress on many popular visual question answering (VQA) benchmarks, it remains unclear whether they abstract and reason over depicted objects. Inspired by human object categorisation, object property reasoning involves identifying and recognising low-level details and higher-level abstractions. While current VQA benchmarks consider a limited set of object property attributes like size, they typically blend perception and reasoning, and la...

ID: 2508.10956v1 cs.CV, cs.AI

arXiv PDF

📄 Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition Dataset Generation

2025-08-19

Авторы:

Feiran Li, Qianqian Xu, Shilong Bao, Boyu Han, Zhiyong Yang, Qingming Huang

## Контекст Построение высококачественных данных для обучения моделей распознавания лиц является ключевым вопросом в области безопасности и технологий. Однако существуют серьезные проблемы, такие как нехватка высококачественных данных, недостаток разнообразия в выборках, и риск конфиденциальности. Эти проблемы приводят к ограниченности моделей и могут привести к плохим результатам в реальной жизни. Мотивация для этого исследования заключается в создании метода, который бы способствовал построению высококачественного, разнообразного, и предельно конфиденциального данных для распознавания лиц. ## Метод Метод, представленный в статье, состоит из нескольких этапов. Сначала производится чистка базового набора данных HSFace, используя стратегию Mixture-of-Experts (MoE), которая объединяет кластеризацию по подписи лица и проверку с помощью GPT-4. Затем, для увеличения разнообразия, используется генерация синтетических лиц с помощью Stable Diffusion, в которой применяется техника продвинутого опроса. Для эффективной расширения синтетических данных используется Vec2Face, которое производит многочисленные варианты лиц с учетом их последовательности. Этот гибридный подход объединяет технологии генеративных сетей и распространения образов, позволяя построить данные разнообразными и качественными. Для уменьшения визуальной схожести синтетических изображений применяется стратегия обучения по школе, где сначала обучаются модели на простых данных, а затем на сложных. ## Результаты Выполненные эксперименты демонстрируют высокую эффективность метода. Был построен набор данных, содержащий 50 изображений для каждой из 50 новых синтетических лиц, которые не имеют пересечения с другими публичными данными. Измерение показало, что данный набор данных улучшает точность распознавания лиц моделей на разных масштабах (10K, 20K, и 100K идентификаций). Эти результаты подтверждают, что новый подход оказывается эффективным не только в синтетических данных, но и в реальных условиях, улучшая показатели в боевых условиях. ## Значимость Предложенный подход имеет широкие области применения в безопасности, технологии распознавания лиц и анализе данных. Он демонстрирует свои преимущества в том, что он создает данные более разнообразными, качественными и безопасными. Это может положительно сказаться на улучшении моделей распознавания лиц, увеличении их точности и уменьшении рисков, связанных с конфиденциальностью. Этот подход может быть использован в различных сферах, включая банковскую сферу, безопасность и автоматизацию. ## Выводы В итоге, это исследование предста

Annotation:

In this paper, we present our approach to the DataCV ICCV Challenge, which centers on building a high-quality face dataset to train a face recognition model. The constructed dataset must not contain identities overlapping with any existing public face datasets. To handle this challenge, we begin with a thorough cleaning of the baseline HSFace dataset, identifying and removing mislabeled or inconsistent identities through a Mixture-of-Experts (MoE) strategy combining face embedding clustering and...

ID: 2508.10672v2 cs.CV, cs.AI

arXiv PDF

📄 FusionFM: Fusing Eye-specific Foundational Models for Optimized Ophthalmic Diagnosis

2025-08-19

Авторы:

Ke Zou, Jocelyn Hui Lin Goh, Yukun Zhou, Tian Lin, Samantha Min Er Yew, Sahana Srinivasan, Meng Wang, Rui Santos, Gabor M. Somfai, Huazhu Fu, Haoyu Chen, Pearse A. Keane, Ching-Yu Cheng, Yih Chung Tham

### Контекст Оптические импедансные сканирования (OCT) стали стандартом в диагностике и мониторинге офтальмологических заболеваний. Несмотря на их высокую точность, традиционные методы анализа OCT-снимков требуют значительных ресурсов и времени. Фундаментальные модели (FMs), основанные на нейронных сетях, показали огромный потенциал в оптимизации диагностики, улучшении точности и снижении времени обработки данных. Несмотря на это, существуют вопросы о том, какая FM лучше подходит для оптических сканирований, и можно ли совершенствовать их, объединяя в купе несколько моделей. ### Метод Мы предлагаем FusionFM — полное рамфрейворк для оценки оптических FMs. Оно включает модели RETFound, VisionFM, RetiZero и DINORET, которые протестировались на стандартизированных датасетах из разных стран. Мы измеряли эффективность моделей по метрикам AUC и F1. В качестве функционального расширения, мы предложили два метода объединения моделей: Gating-Based и Weighted-Sum, которые позволяют комбинировать выдачу отдельных FMs в единую модель, улучшая гибкость и точность вывода. ### Результаты В ходе экспериментов, проведенных на данных от 12,987 пациентов из нескольких стран, было показано, что DINORET и RetiZero превосходят другие модели в точности диагностики офтальмологических заболеваний (glaucoma, diabetic retinopathy, age-related macular degeneration) и предсказания системных заболеваний (diabetes и hypertension). Модель RetiZero показала более высокую общую точность при перекрестном тестировании на внешних датасетах. Однако, важно отметить, что гибридные модели, объединяющие несколько FMs, дают важное улучшение в предсказании glaucoma, AMD и hypertension, но недалеко уходят от отдельных моделей в предсказании системных заболеваний во внешних датасетах. ### Значимость Результаты нашего исследования имеют значительное значение для оптической диагностики и мониторинга заболеваний. Они не только позволяют сравнивать лучшие модели, но и демонстрируют потенциал моделей FusionFM для обеспечения более точной и надежной диагностики. Этот подход может иметь приложение в клинической практике, повышая эффективность анализа и уменьшая время ожидания результатов. Несмотря на положительные результаты, существуют трудности в предсказании системных заболеваний, особенно при работе с внешними датасетами, что открывает путь для дальнейших исследований. ### Выводы Наша работа представляет первый подробный анализ сравнительной эффективности оптических FMs. Мы демонстрируем, что некоторые модели превосходят другие в предсказании офтальмологических заболеваний, но объединение моделей через Gating-Based позволяет добиться небольших повышений точности в определенных задачах. Мы также отме

Annotation:

Foundation models (FMs) have shown great promise in medical image analysis by improving generalization across diverse downstream tasks. In ophthalmology, several FMs have recently emerged, but there is still no clear answer to fundamental questions: Which FM performs the best? Are they equally good across different tasks? What if we combine all FMs together? To our knowledge, this is the first study to systematically evaluate both single and fused ophthalmic FMs. To address these questions, we p...

ID: 2508.11721v1 cs.CV, cs.AI

arXiv PDF

📄 UniDCF: A Foundation Model for Comprehensive Dentocraniofacial Hard Tissue Reconstruction

2025-08-19

Авторы:

Chunxia Ren, Ning Zhu, Yue Lai, Gui Chen, Ruijie Wang, Yangyi Hu, Suyao Liu, Shuwen Mao, Hong Su, Yu Zhang, Li Xiao

## Контекст Повреждения денточно-краниофациальных твердых тканей значительно сказываются на физиологических функциях, лицевой архитектуре и психологическом благополучии пациентов, при этом их конкретное восстановление представляет собой острые проблемы. На данный момент, существующие глубокие нейронные сети ограничены одной структурой ткани и определенными видами импульсов ввода, что приводит к ограниченной универсальности и конфликту выбора между точностью анатомического воспроизведения, вычислительной эффективностью и кросс-тканевой пригодностью. Наша работа предлагает UniDCF — современный фреймворк, который объединяет несколько типов тканей через систему кодирования точечных массивов и многоканальных изображений, при этом включая модуль дено clarification, направленный на совершенствование гладкости поверхности. Это решение устраняет ограничения предыдущих моделей, ориентированных на единый вид данных, и позволяет достичь первоклассных результатов. ## Метод UniDCF является основанной на модели фондации, которая использует кодирование точечных массивов и многоканальных кадров в видео. Она включает в себя два ключевых элемента: (1) модуль фуссирования входных данных, который объединяет точечные массивы и многоканальные изображения, чтобы создать общий контекст для восстановления ткани; (2) модуль дено clarification, который улучшает структуру поверхности воссоздаваемых тканей. Структура UniDCF включает в себя нейронные сети, которые учитывают не только точечные данные и изображения, но и их связи, чтобы обеспечить лучшую конкретизацию и точность. ## Результаты Наши эксперименты проводились на крупнейшем в мире многомодальном наборе данных, включающем интраоральные сканы, CBCT и CT с 6,609 пациентов (54,555 аннотированных экземпляров). Мы сравнивали UniDCF с трех лидирующих моделей. Результаты показали, что UniDCF превосходит другие модели по геометрической точности, структурной полноте и пространственной точности. Также мы провели клинические имитации, в которых UniDCF снизил время разработки конструкции в 99% и получил клинический аудит, установив приемлемость выше 94%. ## Значимость UniDCF предлагает новый подход к реконструкции денточно-краниофациальных тканей, который может быть применен в различных областях, включая стоматологию, ортопедию и хирургию. Основные преимущества UniDCF заключаются в том, что он обеспечивает высокую точность, эффективность и кросс-тканевую пригодность. Это изменяет логику восстановления и позволяет вести личноспособный подход к лечению, увеличивая качество жизни паци

Annotation:

Dentocraniofacial hard tissue defects profoundly affect patients' physiological functions, facial aesthetics, and psychological well-being, posing significant challenges for precise reconstruction. Current deep learning models are limited to single-tissue scenarios and modality-specific imaging inputs, resulting in poor generalizability and trade-offs between anatomical fidelity, computational efficiency, and cross-tissue adaptability. Here we introduce UniDCF, a unified framework capable of rec...

ID: 2508.11728v1 cs.CV, cs.AI

arXiv PDF

1
2
201
202
203
204
205
227
228

Показано 2021 - 2030 из 2274 записей