📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Towards Early Detection: AI-Based Five-Year Forecasting of Breast Cancer Risk Using Digital Breast Tomosynthesis Imaging

2025-09-05

Авторы:

Manon A. Dorster, Felix J. Dorfner, Mason C. Cleveland, Melisa S. Guelen, Jay Patel, Dania Daye, Jean-Philippe Thiran, Albert E. Kim, Christopher P. Bridge

## Контекст Поражение молочной железы (РМЖ) — одна из наиболее распространенных и серьезных заболеваний женщин, которая требует своевременного и точного выявления для успешного лечения. Несмотря на развитие технологий, текущие модели оценки риска РМЖ достигают скромных результатов и не включают в свои модели цифровые маммографии (DBT), одобренные ФДА в 2011 году для дефективного скрининга РМЖ. Большинство текущих моделей используют либо 2D-изображения маммографии, либо традиционные факторы риска, что не достаточно точно оценивает риск заболевания. Таким образом, существует необходимость в развитии более точных инструментов, которые могут включать в свои модели перспективу 5-летнего риска РМЖ на основе DBT. ## Метод Мы предлагаем глубоко сетевую архитектуру, основанную на уникальном подходе, который использует Meta AI DINOv2 в качестве интерпретирующего слоя для извлечения признаков из 3D-изображений DBT. Данные извлекаются с помощью нейронной сети, которая работает в паре с компонентом оценки риска, основанным на слое стохастического частотного хазарта. Мы разработали подробную архитектуру, которая может не только оценивать риск РМЖ на основе многочисленных DBT-изображений, но и предсказывать 5-летний риск заболевания. Мы использовали исторический набор данных, включающий 161 753 цифровых маммографий, выполненных в течение 5 лет, для обучения и проверки нашей модели. ## Результаты Наши эксперименты показали, что лучшая модель достигла AUROC (Area Under the Receiver Operating Characteristic Curve) в 0,80 для предсказания 5-летнего риска РМЖ на тестовой выборке. Этот результат показывает, что наш подход может быть успешно использован для формирования более точных оценок риска РМЖ, сравнимых с традиционными методами оценки. Мы также проанализировали узкие слои и показали, что новый подход имеет высокую точность при прогнозировании сигнаторов риска на основе изображений. ## Значимость Наша работа открывает новые возможности для стандартизированного и эффективного определения риска с помощью цифровых маммографий. Она может быть использована в существующих риск-ассесмент-моделях, улучшая их точность и обеспечивая более точную оценку риска РМЖ. Этот подход может быть использован как дополнение к существующим моделям оценки риска, особенно тем, которые используют данные РМЖ в течение многих лет. Мы также рассматриваем возможность применения этой модели для раннего выявления РМЖ и для улучшения личностной оценки риска на основе индивидуальных конкретных факто

Annotation:

As early detection of breast cancer strongly favors successful therapeutic outcomes, there is major commercial interest in optimizing breast cancer screening. However, current risk prediction models achieve modest performance and do not incorporate digital breast tomosynthesis (DBT) imaging, which was FDA-approved for breast cancer screening in 2011. To address this unmet need, we present a deep learning (DL)-based framework capable of forecasting an individual patient's 5-year breast cancer ris...

ID: 2509.00900v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Protocol for Clustering 4DSTEM Data for Phase Differentiation in Glasses

2025-09-05

Авторы:

Mridul Kumar, Yevgeny Rakita

## Контекст Phase-change materials (PCMs), такие как Ge-Sb-Te аллюги, широко используются в неинтерактивных памятных устройствах благодаря своему быстрому и реверсивному переключению между аморфным и кристаллическим состояниями. Однако их функциональные свойства значительно зависят от микро- и наномасштабных изменений в составе и структуре, которые трудно осуществить с помощью традиционных методов. Целью настоящего исследования является раскрытие этих изменений через применение машинного обучения к 4D-STEM данным, чтобы обнаружить и систематизировать наномасштабные гетерогенности в Ge-Sb-Te. ## Метод Для выполнения исследования был разработан метод, состоящий из нескольких этапов: 1. **Препроцессинг данных**: 4D-STEM данные были предобработаны для удаления шумов и улучшения качества. 2. **Редукция размерности**: Данные были сжаты с помощью PCA (Principal Component Analysis) для уменьшения измерений. 3. **Группировка данных**: Метод k-means был использован для кластеризации, с оптимизацией через silhouette scoring. 4. **Валидация кластеров**: Данные были проанализированы с помощью t-SNE и UMAP для проверки и визуализации кластеров. 5. **Интерпретация результатов**: Элементные интенсивности и средние матрицы перекрестных кристаллических углов были использованы для интерпретации кластеров. ## Результаты На основе применения предложенного метода было выявлено четыре кластера в Ge-Sb-Te. Эти кластеры были связаны с разными составными и структурными характеристиками: - **Cluster 1**: Обнаружена более высокая концентрация оксида и германия. - **Cluster 2**: Значимая концентрация теллура. - **Cluster 3**: Особый уровень сбалансированности теллура и антимоня. - **Cluster 4**: Доля германия и оксида. Эти выявленные кластеры были взаимосвязаны с их соответствующими характеристиками в дифракционных данных, подтверждая таким образом наличие вариаций в составе и структуре на уровне ячеек. ## Значимость Результаты этого исследования имеют большое значение для понимания и оптимизации Ge-Sb-Te PCMs в сфере неинтерактивных памятных устройств. Метод, установленный в рамках данного исследования, может быть применен для изучения других PCMs и позволяет получить более глубокие знания о их наномасштабных свойствах. Это может привести к улучшению производительности и надежности таких материалов. ## Выводы Выполненное исследование показало эффективность применения машинного обучения для кластеризации и анализа 4D-STEM данных в Ge-Sb-Te PCMs. Оно установило новый подход к определению и интерпретации наномасштабных гетерогенностей в PCMs. Будущие исследования могут сфокусироваться на

Annotation:

Phase-change materials (PCMs) such as Ge-Sb-Te alloys are widely used in non-volatile memory applications due to their rapid and reversible switching between amorphous and crystalline states. However, their functional properties are strongly governed by nanoscale variations in composition and structure, which are challenging to resolve using conventional techniques. Here, we apply unsupervised machine learning to 4-dimensional scanning transmission electron microscopy (4D-STEM) data to identify ...

ID: 2509.00943v1 cond-mat.mtrl-sci, cs.CV, cs.LG

arXiv PDF

📄 AI-driven Dispensing of Coral Reseeding Devices for Broad-scale Restoration of the Great Barrier Reef

2025-09-05

Авторы:

Scarlett Raine, Benjamin Moshirian, Tobias Fischer

## Контекст Коралловые речки находятся на грани краха вследствие таких факторов, как изменение климата, кислородная ацетонизация океана и загрязнение. Оценки показывают, что в ближайшие десять лет могут исчезнуть 70–90% видов кораллов. Это требует масштабных усилий по восстановлению. Однако существующие методы требуют значительных ресурсов и человеческой трудолиберальности. Автоматизация этих процессов могла бы увеличить эффективность и масштаб старательств. Целью настоящего исследования является разработка и испытание системы автоматизированного размещения устройств восстановления кораллов, основанной на искусственном интеллекте и робототехнике. ## Метод Авторы предлагают алгоритм, основывающийся на искусственном интеллекте для классификации подложки с помощью компьютерного зрения. Используя высококачественные снимки подложек, полученные с помощью роботизированных систем, алгоритм отличает подложки, подходящие для восстановления кораллов. Для распознавания используется нейронная сеть, которая проводит классификацию на уровне подмножеств изображений. Оптимизированная архитектура гарантирует высокую скорость работы (5.5 кадров в секунду), что позволяет применять систему в реальном времени во время действий на большом масштабе. Разработка включает в себя автоматическое определение подходящих для размещения устройств на большом масштабе. ## Результаты Исследование проводилось на значительных объемах данных, включая аннотированные изображения подложек. Модель классификации подмножеств изображений показала высокую точность — 89.1%. Алгоритм автоматического размещения устройств продемонстрировал точность 77.8% при размещении на реальной глубине сейффлора. Реальному времени модель удалось обрабатывать 5.5 кадров в секунду, что позволяет использовать её в условиях настоящего океана. Данные, полученные в ходе исследования, были опубликованы как открытый ресурс для дальнейшего использования в исследованиях. ## Значимость Разработанная система может быть применена для масштабного восстановления коралловых речек, а также для других приложений в аквакультуре и мониторинге океана. Она обеспечивает увеличение эффективности, сокращение трудоемкости и увеличение точности работ. Созданный объем аннотированных данных является значительным вкладом в научное сообщество и может способствовать дальнейшим исследованиям в области автоматизированных технологий для восстановления экосистем. ## Выводы Разработанная система демонстрирует высокую эффективно

Annotation:

Coral reefs are on the brink of collapse, with climate change, ocean acidification, and pollution leading to a projected 70-90% loss of coral species within the next decade. Restoration efforts are crucial, but their success hinges on introducing automation to upscale efforts. We present automated deployment of coral re-seeding devices powered by artificial intelligence, computer vision, and robotics. Specifically, we perform automated substrate classification, enabling detection of areas of the...

ID: 2509.01019v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Chronotome: Real-Time Topic Modeling for Streaming Embedding Spaces

2025-09-05

Авторы:

Matte Lim, Catherine Yeh, Martin Wattenberg, Fernanda Viégas, Panagiotis Michalatos

## Контекст В настоящее время существует множество реального мира данных, включая тексты, изображения, аудио и другие виды данных, которые меняются с течением времени. Эти изменения могут отражать авторские стили, тематические изменения или динамику взаимодействия. Однако существующие методы, такие как статическая визуализация, не могут правильно отражать эти изменения во времени. Это создает проблему для анализа и понимания временных потоков данных. Мы предлагаем Chronotome, инструмент, который позволяет визуализировать эти изменения в реальном времени. ## Метод Чтобы построить Chronotome, мы использовали гибридную архитектуру, которая объединяет силовое проектирование с методами кластеризации. Силовое проектирование позволяет структурировать данные в пространственно-временной модели, а кластеризация позволяет отслеживать изменения в тематических пространствах. Эти методы тесно интегрированы с потоковыми алгоритмами, чтобы обеспечить реальное время визуализации. Мы также использовали методы сокращения размерности, такие как t-SNE и UMAP, для эффективного представления данных. ## Результаты Мы проверили Chronotome на нескольких наборах данных, включая текстовые данные и изображения. Наши эксперименты показали, что Chronotome может эффективно отражать изменения тем в реальном времени. Например, при анализе текстовых данных, таких как твиты, мы увидели, как темы изменяются с течением времени. Аналогичные результаты были получены при анализе изображений, где Chronotome могла отобразить изменения в тематических областях, таких как мода или стили. ## Значимость Chronotome может быть применен в различных областях, таких как анализ социальных сетей, мониторинг медиа-трендов и анализ исторических данных. Он предоставляет новый способ понимания временных тем в данных. Его преимущество заключается в реальном времени обновлении данных, что делает его крайне полезным для аналитиков и исследователей, которые работают с динамическими данными. ## Выводы Chronotome представляет собой перспективный подход к визуализации временных тем в данных. Наши результаты показали, что он может эффективно отражать изменения в тематических пространствах в реальном времени. Будущие исследования будут сосредоточены на улучшении точности кластеризации и интеграции дополнительных функций, таких как интерактивная настройка.

Annotation:

Many real-world datasets -- from an artist's body of work to a person's social media history -- exhibit meaningful semantic changes over time that are difficult to capture with existing dimensionality reduction methods. To address this gap, we introduce a visualization technique that combines force-based projection and streaming clustering methods to build a spatial-temporal map of embeddings. Applying this technique, we create Chronotome, a tool for interactively exploring evolving themes in ti...

ID: 2509.01051v1 cs.HC, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Automatic Screening of Parkinson's Disease from Visual Explorations

2025-09-05

Авторы:

Maria F. Alcala-Durand, J. Camilo Puerta-Acevedo, Julián D. Arias-Londoño, Juan I. Godino-Llorente

## Контекст Визуальные исследования являются важной частью диагностики различных медицинских условий, в том числе новородических тревог и нервных расстройств. Одним из наиболее распространенных заболеваний, вызывающих серьезные последствия для здоровья, является Паркинсоновое заболевание (PD). Это хроническое, прогрессирующее заболевание, приводящее к повреждению нервной системы, обычно связанное с потерей моторных и немоторных функций. Одним из ключевых признаков PD является изменение окулиомоторных характеристик, таких как глазодвижения, скорость реакции и точность слежения за объектом. Изучение этих признаков может помочь раннему выявлению заболевания, что дает возможность начать лечение в оптимальный период. Тем не менее, существующие методы диагностики часто требуют дорогостоящих инструментов или трудоемких стендов, что ограничивает широкое применение. Мотивирует разработку автоматизированного метода скрининга PD с использованием визуальных исследований, который может быть экономичным и доступным. ## Метод Для оценки окулиомоторных характеристик в рамках диагностики PD была разработана новая методология, которая объединяет классические признаки глаза (например, частота сканирования, продолжительность фиксации, объем сканируемой области) с новыми признаками, основывающимися на кластерах глазных движений (т.е., зонах существенной накопления фиксаций). Эти признаки были извлечены автоматически из шести разных тестов визуального исследования. Для анализа этих признаков было применено множество машинных обучающихся алгоритмов, включая энсемблы Mixture of Experts (MoE). Модель MoE позволяет объединять результаты отдельных классификаторов для улучшения точности и общей производительности. Данные для экспериментов были получены в рамках шести разных тестов, включающих визуальное сканирование различных объектов и базовых возможностей глаза. ## Результаты Эксперименты показали, что модель Mixture of Experts дает высокую точность диагностики PD, с AUC (Receiver Operating Characteristic) 0.95 на тестовой выборке. Это значительно превышает результаты отдельных классификаторов. Также было обнаружено, что признаки, полученные из кластеров глазных движений, дают более сильные признаки, чем классические признаки окулиомоторных характеристик. Эти результаты подтверждают, что визуальные исследования могут дать доступ к ранней диагностике PD, что делает их привлекательным инструментом для неинвазивного скрининга. ## Значимость Результаты этого исследования открывают новые возможности для легкого и неинвазивного скрининга PD. Исполь

Annotation:

Eye movements can reveal early signs of neurodegeneration, including those associated with Parkinson's Disease (PD). This work investigates the utility of a set of gaze-based features for the automatic screening of PD from different visual exploration tasks. For this purpose, a novel methodology is introduced, combining classic fixation/saccade oculomotor features (e.g., saccade count, fixation duration, scanned area) with features derived from gaze clusters (i.e., regions with a considerable ac...

ID: 2509.01326v1 q-bio.NC, cs.CV, cs.LG

arXiv PDF

📄 AgroSense: An Integrated Deep Learning System for Crop Recommendation via Soil Image Analysis and Nutrient Profiling

2025-09-05

Авторы:

Vishal Pandey, Ranjita Das, Debasmita Biswas

#### Контекст Сегодняшние системы рекомендации культур сталкиваются с проблемами, связанными с длительным временем обработки и неэффективностью при оперативных решениях в полевых условиях. Эти ограничения приводят к задержкам в принятии решений, что негативно сказывается на урожайности и уровне управления сельскохозяйственными ресурсами. Исследователи искали более сильные алгоритмы, которые могут обрабатывать большие объемы данных в реальном времени, обеспечивая точные и контекстуально адекватные рекомендации. Данная статья представляет AgroSense — интегрированную систему, основанную на глубоком обучении, которая объединяет технологии классификации земельных образцов и профилирования удобрений для работы в реальном времени. #### Метод AgroSense является сочетанием двух модулей: Soil Classification Module и Crop Recommendation Module. Soil Classification Module использует три модели классификации изображений земли: ResNet-18, EfficientNet-B0 и Vision Transformer. Эти модели обучаются для классификации земельных образцов на основе их физических и химических характеристик. Crop Recommendation Module включает нейронную сеть Multi-Layer Perceptron, а также бустинговые модели XGBoost, LightGBM и TabNet, чтобы анализировать характеристики почвы, такие как уровень удобрений, pH и уровень осадков. Эти модели объединены в единое целое, чтобы обеспечить точные и контекстуально обоснованные рекомендации культур. #### Результаты Проведены эксперименты на датасете, состоящем из 10 000 парных образцов, включающих 25 000 профилей удобрений и 50 000 изображений земных образцов. AgroSense достиг 98.0% точности, 97.8% полноты, 97.7% восстановления и 96.75% F1-меры. А также оно показало значительное снижение RMSE до 0.32 и MAE до 0.27. Абляционные исследования подтвердили важность интеграции многомодальных данных для достижения такой высокой точности. Также, статистическое анализирование с помощью t-тестов и ANOVA подтвердило существенную пользу от применения методов этой статьи. #### Значимость AgroSense может быть применено в различных сферах, таких как реальное время принятия решений в сельском хозяйстве, а также в системы поддержки рекомендаций для улучшения урожайности и эффективности управления ресурсами. Оно предлагает преимущества в скорости и точности, что делает его оптимальным для решения проблем в реальном времени. Кроме того, оно открывает новые возможности для создания эффективных многомодальных AI-систем, которые могут работать в условиях ресурсного ограничения. #### Выводы AgroSense доказал свою эффективность в области рекомендаций культур на основе анализа почвенных изображений и профилей удобрений. Оно и дальше будет ра

Annotation:

Meeting the increasing global demand for food security and sustainable farming requires intelligent crop recommendation systems that operate in real time. Traditional soil analysis techniques are often slow, labor-intensive, and not suitable for on-field decision-making. To address these limitations, we introduce AgroSense, a deep-learning framework that integrates soil image classification and nutrient profiling to produce accurate and contextually relevant crop recommendations. AgroSense compr...

ID: 2509.01344v1 cs.CV, cs.LG

arXiv PDF

📄 M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

2025-09-05

Авторы:

Che Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu

#### Контекст Medical image retrieval (MIR) является ключевым инструментом для клинического принятия решений и трансляционных исследований, требуя высококачественных визуальных представлений. Тем не менее, существующие подходы остаются в ограниченных подходах, привязанными к конкретным модальностям (2D, 3D, видео), что затрудняет развитие универсального подхода к обучению. Эта проблема мотивирует разработку методов, которые могут объединять различные модальности в единое целое и обеспечивать широкое применение в различных сценариях. #### Метод Модель M3Ret разработана как универсальный визуальный энкодер, не требующий модальности-специфического настройки. Она обучается на большом гибридном датасете, содержащем 867,653 семплов, включая 2D X-rays и ультразвуки, RGB-видео эндоскопии, а также 3D CT-сканы. Основной подход к обучению основывается на самостоятельных самосупервизированных методах (SSL), включая generative (MAE) и contrastive (SimDINO) парадигмы. Эта модель способна учитывать разные виды изображений и видео, без потерь в качестве представления. #### Результаты Проведенные эксперименты показали, что M3Ret достигает нового состояния знаний в задаче нулевого-значения (zero-shot) для изображений-к-изображениям. Она показала значительное превосходство над DINOv3 и BMC-CLIP с текстовой супервизой. Особое внимание уделено возможности обнаружения независимости от парных данных, что демонстрирует мощь самосупервизированных самоуправляемых методов. Также модель показала высокую общинность, успешно загружая магнитные резонансные изображения (MRI), независимо от того, были ли они присутствовали в обучении. Эксперименты показали, что M3Ret может объединять различные модальности без потерь качества. #### Значимость M3Ret открывает новые возможности для объединения различных модальностей в области здравоохранения. Он может применяться в клинической практике для быстрого поиска изображений, трансляционных исследований, а также развития базовых моделей для конвейеров медицинского изображения. Его общинность, эффективность и превосходство над существующими подходами делают его одним из самых универсальных инструментов в медицинской интеллектуальной системе. #### Выводы Результаты M3Ret показывают, что самосупервизированные методы могут стать основой для универсальных моделей медицинского изображения. В дальнейших исследованиях необходимо тестировать модель на более широком спектре задач и данных, чтобы продвигаться к созданию тяжелых моделей, объединяющих все модальности в единую систему.

Annotation:

Medical image retrieval is essential for clinical decision-making and translational research, relying on discriminative visual representations. Yet, current methods remain fragmented, relying on separate architectures and training strategies for 2D, 3D, and video-based medical data. This modality-specific design hampers scalability and inhibits the development of unified representations. To enable unified learning, we curate a large-scale hybrid-modality dataset comprising 867,653 medical imagin...

ID: 2509.01360v1 cs.CV, cs.LG

arXiv PDF

📄 AI-Driven Marine Robotics: Emerging Trends in Underwater Perception and Ecosystem Monitoring

2025-09-05

Авторы:

Scarlett Raine, Tobias Fischer

## Контекст Объемами возрастающих нагрузок на морские экосистемы, вызванные климатическими изменениями, подчеркивают необходимость в эффективных, сценарий-адаптивных системах мониторинга. Масштабируемость и доступность технологий в области искусственного интеллекта (ИИ) открыли новые пути для решения этих проблем. Особенно заметно это в сфере подводного видения и океанического мониторинга, где ИИ уже превратился в главный двигатель нового поколения решений. Ранее, эти области оставались во многом закрытыми, но сейчас они развиваются с ускоренным темпом, становясь новым центром инноваций в области компьютерного зрения и робототехники. Несколько ключевых факторов способствовали этому росту: угрозы для экосистем, рост необходимости в объемных и широкомасштабных мониторингных системах, прирост доступности подводных данных благодаря внедрению платформ для участия гражданского населения в научных исследованиях, а также перемещение ученых из затянутых изобретением земных компьютерно-визуальных исследований в сферу морских исследований. В настоящей статье мы разбираем эти факторы, а также проблемы и преимущества, с которыми сталкиваются разработчики ИИ, работающие в подводной сфере. ## Метод Методология, применяемая в этом исследовании, основывается на использовании методов машинного обучения, специально адаптированных для морских применений. Изучение этих методов включает в себя разработку алгоритмов для улучшения обобщаемости в условиях подводного зрения, включая учет характеристик, таких как неоднородность воды и низкий разрешающий канал видимости. Мы также рассматриваем развитие систем самостоятельного обучения и инструментов, позволяющих улучшить решения в области визуального понимания подводных экосистем. Для решения проблемы отсутствия достаточных меток данных, которая характерна для подводных мониторинговых задач, использовались модели слабо направленного обучения (weakly supervised learning), которые позволяют обучаться на неполных данных. Также мы рассматриваем развитие трехмерной реконструкции подводных сцен с помощью современных методов самостоятельного обучения. ## Результаты В ходе работы были проведены эксперименты с использованием высококачественных подводных данных, которые были собраны в различных экосистемах. Мы протестировали различные модели, в том числе модели, основанные на слабо направленном обучении и самостоятельном обучении. Эти модели были применены к задачам, таким как определение разнообразия видов, распознавание объектов под водой, а также к задачам трехмерной реконструкции подводных сцен. Результаты показали, что моде

Annotation:

Marine ecosystems face increasing pressure due to climate change, driving the need for scalable, AI-powered monitoring solutions. This paper examines the rapid emergence of underwater AI as a major research frontier and analyzes the factors that have transformed marine perception from a niche application into a catalyst for AI innovation. We identify three convergent drivers: environmental necessity for ecosystem-scale monitoring, democratization of underwater datasets through citizen science pl...

ID: 2509.01878v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 SegFormer Fine-Tuning with Dropout: Advancing Hair Artifact Removal in Skin Lesion Analysis

2025-09-05

Авторы:

Asif Mohammed Saad, Umme Niraj Mahi

#### Контекст Проблемы с неоднородностью данных в области дерматологии, особенно в анализе дерматологических поверхностных тканей, остаются откровенными вызовами. Одной из ключевых проблем является влияние волос, которые могут приводить к заслонению ключевых диагностических признаков. Эти волосы часто создают замыкания, деформируют контуры и вносят шум, снижая точность диагностики. Для решения этой проблемы необходимо создать модель, которая могла бы идентифицировать и удалять эти волосы с высокой точностью, повышая точность диагностики. #### Метод Модель SegFormerWithDropout является основным инструментом для решения проблемы волос в дерматологических изображениях. Модель использует MiT-B2 в качестве энкодера, который был ранее обучен на базе ImageNet. Этот энкодер имеет входные данные с тремя каналами и двумя классами выхода. Для регуляризации используется dropout с шансом 0.3, чтобы уменьшить вероятность переобучения. Модель обучалась на 500 изображениях с деликатной маской волос, используя 10-классов кросс-валидацию. Оптимизация выполнялась с помощью AdamW со скоростью обучения 0.001, а loss-функцией выступала cross-entropy. Для предотвращения переобучения применялась early stopping, с датой окончания на трёх эпохах, с максимальной длиной 20 эпох. #### Результаты Проведенные эксперименты показали, что модель SegFormerWithDropout демонстрирует высокую точность в сегментации волос. Анализ параметров показал следующие результаты: Dice coefficient примерно 0.96, IoU 0.93, PSNR около 34 dB, SSIM 0.97, а LPIPS составил 0.06. Эти результаты указывают на высокую точность модели в удалении волос и сохранении диагностических признаков. Эти результаты подтверждают мощность SegFormerWithDropout в решении проблемы волос в дерматологии. #### Значимость Модель SegFormerWithDropout может быть применена в различных дерматологических приложениях, включая диагностику раковых опухолей на стадии раннего развития. Она позволяет повысить точность во всех стадиях диагностики, уменьшая "глазурные эффекты", которые могут быть вызваны волосами. Это может привести к более точным диагнозам и повышению уровня здравоохранения. Этот подход также может быть расширен на другие области, такие как распознавание других нежелательных элементов на изображениях. #### Выводы SegFormerWithDropout доказала свою эффективность в решении проблемы волос в дерматологии. Однако, для дальнейшего достижения результатов, необходимо продолжить работу над улучшением модели, в том числе с помощью более разнообразных датасетов, интеграции в системы диагностики и улучшении методов регуляризации.

Annotation:

Hair artifacts in dermoscopic images present significant challenges for accurate skin lesion analysis, potentially obscuring critical diagnostic features in dermatological assessments. This work introduces a fine-tuned SegFormer model augmented with dropout regularization to achieve precise hair mask segmentation. The proposed SegformerWithDropout architecture leverages the MiT-B2 encoder, pretrained on ImageNet, with an in-channel count of 3 and 2 output classes, incorporating a dropout probabi...

ID: 2509.02156v1 cs.CV, cs.LG

arXiv PDF

📄 Unifi3D: A Study on 3D Representations for Generation and Reconstruction in a Common Framework

2025-09-05

Авторы:

Nina Wiedemann, Sainan Liu, Quentin Leboutet, Katelyn Gao, Benjamin Ummenhofer, Michael Paulitsch, Kai Yuan

## Контекст Ускоряющиеся достижения в области текстовой и изображениягенерации привели к значительному вниманию к 3D-генерации. В отличии от устоявшегося пиксельного представления в изображениях, 3D-представления остаются разнообразными и декомпозированными. Они включают такие подходы, как воксельные графы, нейросетевые радиационные поля, сигнид-даистанс-функции, точечные облака и октиры. Каждый подход имеет свои преимущества и ограничения. В данной работе мы предлагаем общую оценочную систему для анализа 3D-представлений по таким критериям, как качество, эффективность вычислений и универсальность. Мы рассматриваем не только процесс оценки моделей, но и все этапы 3D-генерации, включая предобработку, восстановление моделей, сжатие с помощью автокодировщиков и генерацию. Наши результаты показывают, что ошибки восстановления сильно влияют на получаемый результат, что делает необходимым оценивать генерацию и восстановление вместе. Мы даем рекомендации для выбора 3D-моделей в зависимости от конкретных задач, поддерживая развитие универсальных и прикладно-специфичных решений в 3D-генерации. Наш код доступен по адресу: https://github.com/isl-org/unifi3d. ## Метод Мы предложили общую оценочную систему, которая оценивает 3D-представления по нескольким критериям. Эта система использует несколько типов 3D-моделей, включая воксельные графы, радиационные поля, точечные облака и др. Мы разработали тестовые наборы данных для эталонного сравнения 3D-объектов, чтобы измерить качество восстановления, эффективность и универсальность. Наши эксперименты включили стандартные модели, которые прошли ряд этапов, таких как предобработка, реконструкция моделей, сжатие данных с помощью автокодировщиков и последующая генерация. Наша методология рассматривает взаимодействие этих этапов и определяет лучшие практики для каждого из них. Мы также проанализировали, как различные 3D-представления влияют на качество и производительность в целом. Это позволило нам выделить преимущества и недостатки каждого подхода в различных сценариях. ## Результаты Мы провели ряд экспериментов с различными 3D-представлениями, такими как воксели, радиационные поля и точечные облака. Наши результаты показали, что качество восстановления сильно зависит от того, как хорошо представлено 3D-представление. Мы обнаружили, что модели с более точным восстановлением показали лучшие результаты в целом. Также, мы обнаружили, что сжатие данных имеет значительное влияние на качество результатов. Наши эксперименты показали, что лучшие резуль

Annotation:

Following rapid advancements in text and image generation, research has increasingly shifted towards 3D generation. Unlike the well-established pixel-based representation in images, 3D representations remain diverse and fragmented, encompassing a wide variety of approaches such as voxel grids, neural radiance fields, signed distance functions, point clouds, or octrees, each offering distinct advantages and limitations. In this work, we present a unified evaluation framework designed to assess th...

ID: 2509.02474v1 cs.GR, cs.CV, cs.LG

arXiv PDF

1
2
64
65
66
67
68
83
84

Показано 651 - 660 из 835 записей