📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Adapting Medical Vision Foundation Models for Volumetric Medical Image Segmentation via Active Learning and Selective Semi-supervised Fine-tuning

2025-09-17

Авторы:

Jin Yang, Daniel S. Marcus, Aristeidis Sotiras

#### Контекст Медицинские виджет-фундаментальные модели (Med-VFMs) обладают выдающимися способностями в интерпретации медицинских изображений благодаря самостоятельному предварительному обучению на огромных объемах неотмеченных изображений. Однако при применении этих моделей к адаптивным задачам, таким как сегментация объектов на вольюметрических медицинских изображениях, их производительность часто оставляет желать лучшего. Обычно для улучшения их эффективности в таких задачах используется ручной метод выбора небольшого набора примеров для оптимизации модели. Тем не менее, существует недостаточно работ, посвященных методам, которые могут эффективно адаптировать Med-VFMs к новым доменам, используя минимальное количество выборок. Это вызывает потребность в разработке методов, которые не только повысят эффективность адаптации, но и оптимизируют выбор информативных примеров для максимальной адаптации. #### Метод Мы предлагаем Active Source-Free Domain Adaptation (ASFDA), метод, который эффективно адаптирует Med-VFMs к новым доменам для вольюметрической сегментации медицинских изображений. Этот метод основан на Active Learning (AL), который использует два основных критерия для выбора самых информативных примеров из нового домена: Diversified Knowledge Divergence (DKD) и Anatomical Segmentation Difficulty (ASD). DKD измеряет разницу в знаниях между исходным доменом и новым доменом, а также степень разнообразия семантических примеров. ASD, в свою очередь, оценивает сложность сегментации анатомических структур, используя понятие адаптивной энтропии. Это позволяет выделить самые сложные области для сегментации. Кроме того, ASFDA использует Selective Semi-supervised Fine-tuning для оптимизации процесса тренировки, выявляя наиболее надежные примеры из неотмеченных данных. #### Результаты Наши эксперименты проводились на наборах данных, содержащих вольюметрические медицинские изображения. Мы сравнивали результаты ASFDA с традиционными методами, включая предварительную оценку и случайный выбор примеров. Наши результаты показали, что ASFDA эффективно улучшает производительность моделей с минимальным количеством выборочных примеров. Например, на наборе данных A, ASFDA повысила точность сегментации на X% в сравнении с самым эффективным конкурентом, при использовании Y% меньшего количества примеров. Эти результаты подтверждают эффективность нашего подхода в адаптивной адаптации Med-VFMs. #### Значимость ASFDA может быть применен в различных сферах медицины, где требуется высокая точность сегментации, например, в диагностике рака, сердечно-сосудистых заболеваний и других анатомических структур. Этот подход экономит врем

Annotation:

Medical Vision Foundation Models (Med-VFMs) have superior capabilities of interpreting medical images due to the knowledge learned from self-supervised pre-training with extensive unannotated images. To improve their performance on adaptive downstream evaluations, especially segmentation, a few samples from target domains are selected randomly for fine-tuning them. However, there lacks works to explore the way of adapting Med-VFMs to achieve the optimal performance on target domains efficiently....

ID: 2509.10784v1 eess.IV, cs.CV

arXiv PDF

📄 UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

2025-09-17

Авторы:

Zhi Chen

## Контекст Сегодняшний клинический практикум часто полагается на анализ изображений ультразвуковых сканов для диагностики различных заболеваний. Несмотря на то, что ультразвуковое исследование широко распространено благодаря своей экономичности, мобильности и безопасности, существуют значительные проблемы в использовании AI для таких задач. В частности, существующие модели часто разделяют задачи на диагностическую классификацию и сегментацию тканей, что приводит к высокому компьютерному накладному расходу и неэффективности. Таким образом, необходимо разработать универсальный подход, который мог бы объединить эти задачи в одной структуре. ## Метод UltraUPConvNet — это модель, основанная на UPerNet и ConvNeXt, которая способна решать две задачи одновременно: классификацию тканей и сегментацию изображений. Архитектура модели включает в себя несколько ключевых компонентов: 1) **Входной модуль**, который принимает ультразвуковые изображения различных регионов организма; 2) **Сверточный модуль**, основанный на ConvNeXt, для извлечения высококачественных признаков; 3) **Трансформерный модуль**, UPerNet, для адаптивного извлечения контекста; 4) **Сегментационный модуль** и **Классификационный модуль**, которые позволяют выполнять две задачи в одном проходе. Эта модель обучалась на большом датасете, содержащем более 9700 аннотаций по 7 регионам тела. ## Результаты Наши эксперименты проводились на нескольких отдельных датасетах с целью оценить точность, эффективность и общую универсальность модели. Мы сравнили результаты UltraUPConvNet с другими современными моделями. У нас получились хорошие результаты, особенно в области сегментации тканей, где наши модели показали гораздо вышу эффективность с меньшим компьютерным накладным. Данные о результатах и транспарентные ресурсы с кодом и моделями доступны на GitHub. ## Значимость Модель UltraUPConvNet может быть применена в сфере клинической диагностики для распознавания различных заболеваний и сегментации тканей. Она обеспечивает более высокую эффективность и гибкость по сравнению с другими моделями. Благодаря низкому компьютерному накладному, модель может быть использована для реального времени в клинических условиях. Это может способствовать более быстрой диагностике и улучшению мобильных приложений в области медицины. ## Выводы UltraUPConvNet представляет собой перспективный подход к решению задач классификации и сегментации тканей в ультразвуковых изображениях. Мы показали, что наша модель обеспечивает высокую точность и эффективность с меньшим накладным. В будущем, мы планируем расширить датасеты, улучши

Annotation:

Ultrasound imaging is widely used in clinical practice due to its cost-effectiveness, mobility, and safety. However, current AI research often treats disease prediction and tissue segmentation as two separate tasks and their model requires substantial computational overhead. In such a situation, we introduce UltraUPConvNet, a computationally efficient universal framework designed for both ultrasound image classification and segmentation. Trained on a large-scale dataset containing more than 9,70...

ID: 2509.11108v1 eess.IV, cs.CV

arXiv PDF

📄 Data-driven Smile Design: Personalized Dental Aesthetics Outcomes Using Deep Learning

2025-09-17

Авторы:

Marcus Lin, Jennifer Lai

## Контекст Здоровый и привлекательный улыбка является важной составляющей функционального и эстетического благополучия, что повышает уверенность людей. Однако для зубных специалистов сложно поддерживать баланс между эстетическими требованиями и функциональными требованиями. Традиционные методы смилярки (smile design) полагались значительно на опыт врачей и нарушались традиционными методами, такими как работа с пластинными моделями и ручными чертежами, что вызывало вопросы о результатах для пациентов. Диджиталные технологии, введенные доктором Кристианом Кучманом в 2007 году, позволили осуществлять фотографические и видеоанализы, что улучшило взаимодействие специалистов и пациентов. На сегодняшний день, с развитием искусственного интеллекта (AI) и больших данных, улучшена аналитика лиц и разработка персонализированных смилярок. Однако результаты таких систем могут быть подвержены ошибкам в предварительной обработке или ограничениям в обучающих данных, что может привести к неудовлетворительным результатам для определенных пользователей. Данная работа предлагает комплексный подход, интегрирующий AI, большие данные и распознавание лица, чтобы автоматизировать процесс разработки смилярок. ## Метод Предлагаемая система состоит из двух модулей: Facial Feature Extraction Module (Модуль Извлечения Личных Особенностей Лица) и Image Generation Module (Модуль Генерации Изображений). Модуль извлечения личных личных особенностей лица использует нейронные сети для извлечения и анализа лица пациента из входных данных, таких как фотографии и видео. Модуль генерации изображений использует генеративные модели, такие как GANs (Generative Adversarial Networks), для создания персонализированных дизайнов улыбки, учитывая личные особенности и предпочтения пациента. Эта архитектура позволяет системе адаптироваться к различным потребностям и уровням опыта врачей, обеспечивая эффективность и точность в разработке смилярок. ## Результаты Использовавшимися набором данных включал фотографии, видео и метрики лиц от пациентов, а также результаты традиционных методов смилярки. На экспериментальном стадии, модель была обучена на большом наборе данных для достижения высокой точности в извлечении личных личных особенностей лица. Результаты показали, что система способна создавать точные персонализированные дизайны улыбки, которые соответствуют предпочтениям пациента и соответствуют лучшим практикам эстетической смилярки. Эксперименты также показали, что система может применяться как для опытных, так и для неопытных врачей, улучшая мощность и доступность смилярки.

Annotation:

A healthy smile plays a significant role in functional as well as esthetic considerations, improving confidence. It is difficult for dental professionals to strike a balance between esthetic requirements and functional requirements. Traditional smile design has had heavy reliance on dentist expertise and used plaster models and hand drawings, raising questions about the outcome for patients. Digital technology, led by Dr. Christian Coachman in 2007, allows photographic and videographic assessmen...

ID: 2509.12001v1 eess.IV, cs.CV, I.2.6; I.2.10; J.3

arXiv PDF

📄 Polarization Denoising and Demosaicking: Dataset and Baseline Method

2025-09-16

Авторы:

Muhamad Daniel Ariff Bin Abdul Rahman, Yusuke Monno, Masayuki Tanaka, Masatoshi Okutomi

## Контекст Дивизион-оф-фокаль-плане (DoFP) поляриметр позволяет получать изображения с несколькими ориентациями поляризации в один кадр, что делает его неоцениваемым для приложений, использующих поляризированную информацию. Однако обработка таких изображений требует выполнения двух важных задач: денойсинга и демосайкинга. Хотя задача демосайкинга для шумо-свободных изображений получила достаточное внимание, проблема их совместного решения (денойсинга и демосайкинга) все еще остается недостаточно изученной. Это обусловлено отсутствием подходящего датасета и решения, которое можно использовать в качестве референса. Мы предлагаем новую модель и датасет, которые могут стать основополагающим подходом для выполнения этих задач. ## Метод Мы предлагаем уникальный новый подход к задачам поляризационного денойсинга и демосайкинга. Наша модель основывается на принципах сигнального процессинга и использует разделение задач на два этапа: денойсинг, затем демосайкинг. Мы использовали три уровня шума для симуляции реальных условий. Для того, чтобы обеспечить повторяемость исследований, мы создали датасет, содержащий 40 реальных сцен, как с шумом, так и без шума. Это позволяет проверить нашу модель в различных условиях и сравнить ее с другими методами. ## Результаты Мы провели эксперименты с использованием нашего датасета и сравнили нашу модель с другими алгоритмами. Наши результаты показывают, что наш подход дает лучшие результаты в задаче денойсинга и демосайкинга поляризационных изображений в сравнении с другими методами. Мы также проверили нашу модель на реальных снимках и получили высокую точность в построении полного изображения. ## Значимость Наша модель может применяться в различных областях, таких как космос, инфракрасная съемка, а также в области видеонаблюдения. Особенно значима ее значимость в ситуациях, когда требуется быстрая и точная обработка поляризированных изображений. Наш подход предоставляет новый стандарт для данной задачи, что позволяет улучшить качество изображений в реальном времени. Мы также планируем продолжать работу над улучшением нашей модели, в том числе добавлением более сложных условий и задач. ## Выводы Мы представили новый датасет и подход к задачам денойсинга и демосайкинга поляризационных изображений. Наши результаты показали, что наш подход является оптимальным в сравнении с другими методами. Мы также подчеркнули значимость нашего датасета для последующих исследований в этой области. В будущем мы планируем расширить нашу модель для выполнения более сложных задач обработки поляризированных изоб

Annotation:

A division-of-focal-plane (DoFP) polarimeter enables us to acquire images with multiple polarization orientations in one shot and thus it is valuable for many applications using polarimetric information. The image processing pipeline for a DoFP polarimeter entails two crucial tasks: denoising and demosaicking. While polarization demosaicking for a noise-free case has increasingly been studied, the research for the joint task of polarization denoising and demosaicking is scarce due to the lack of...

ID: 2509.10098v1 eess.IV, cs.CV

arXiv PDF

📄 Multi-pathology Chest X-ray Classification with Rejection Mechanisms

2025-09-16

Авторы:

Yehudit Aperstein, Amit Tzahar, Alon Gottlib, Tal Verber, Ravit Shagan Damti, Alexander Apartsin

## Контекст Исследование посвящено развитию моделей нейронных сетей для диагностики заболеваний на основе клетчатой интернализации с помощью глубокого обучения. Распространенная проблема в таких задачах состоит в том, что модели выводят недостаточно уверенные прогнозы, что может привести к ошибкам в критичных ситуациях. Это особенно актуально при классификации многомерных данных, таких как клетчатые изображения грудной клетки, где необходимо одновременно выявить несколько различных патологий. Модели, не умеющие отказываться от неуверенных прогнозов, могут выдавать ложные срабатывания, что ухудшает доверие к ним. Основная мотивация — создать модель, умеющую отказываться от неуверенных прогнозов и передавать такие случаи клиническим экспертам, чтобы повысить надежность диагностики. ## Метод Модель основана на архитектуре DenseNet-121, адаптированной для многомерной классификации клетчатых изображений грудной клетки. Для решения проблемы недостаточной уверенности в прогнозах введены два метода отказа от неуверенных прогнозов: 1. **Entropy-based rejection**: если неопределенность прогноза выше определенного порога, модель отказывается от прогноза и передает случай клиническому специалисту. 2. **Confidence interval-based rejection**: если прогноз не попадает в доверительный интервал для класса, модель также отказывается от прогноза. Был разработан процесс калибровки порогов для этих методов с использованием квантильной процедуры. Это позволяет адаптировать пороги к глобальной или класс-специфической ситуации. ## Результаты Исследование проводилось на трех крупных общедоступных датасетах: PadChest, NIH ChestX-ray14 и MIMIC-CXR. Оценки показали, что оба метода отказа от неуверенных прогнозов улучшают точность диагностики и уменьшают число ошибок. **Entropy-based rejection** демонстрирует наивысший **AUC** (Average Area Under Curve) для всех патологий, что делает его наиболее эффективным. Эти результаты подтверждают эффективность и практическую значимость использования отказа от неуверенных прогнозов в медицинских изображениях. ## Значимость Предложенная модель может использоваться в различных клинических ситуациях, где необходима надежная диагностика с минимальным риском ошибки. Основные преимущества: - Увеличение надежности прогноза. - Уменьшение числа ложных срабатываний. - Возможность передачи неуверенных случаев клиническим экспертам. Этот подход может стать важной составляющей в медицинских рабочих процессах, позволяя доверять искусственному интеллекту в критичных ситуациях. ## Выводы Предложенный подход доказал свою эффективность в улучшении диагностической точности и надежности моделей для клетчатой инт

Annotation:

Overconfidence in deep learning models poses a significant risk in high-stakes medical imaging tasks, particularly in multi-label classification of chest X-rays, where multiple co-occurring pathologies must be detected simultaneously. This study introduces an uncertainty-aware framework for chest X-ray diagnosis based on a DenseNet-121 backbone, enhanced with two selective prediction mechanisms: entropy-based rejection and confidence interval-based rejection. Both methods enable the model to abs...

ID: 2509.10348v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Dynamic Structural Recovery Parameters Enhance Prediction of Visual Outcomes After Macular Hole Surgery

2025-09-13

Авторы:

Yinzheng Zhao, Zhihao Zhao, Rundong Jiang, Louisa Sackewitz, Quanmin Liang, Mathias Maier, Daniel Zapp, Peter Charbel Issa, Mohammad Ali Nasseri

## Контекст Идиопатические полнотелостные макулярные явки (iFTMH) являются значительной причиной потери зрения в пожилом возрасте. Одним из ключевых аспектов лечения является предсказание послеоперационного восстановления зрения, что позволяет дифференцировать подходы к терапии и улучшить результаты лечения. Несмотря на развитие многомодальных моделей глубокого обучения (DL), существуют ограничения в точности предсказания подходящих к различным этапам восстановления. Динамические структурные параметры, оценивающие изменения в течение времени, могут улучшить точность и предоставить новые возможности для личностного лечения. ## Метод Для построения модели был использован публичный датасет с результатами макулярной хирургии iFTMH. Данные включали сегментированные структуры, измеренные с помощью оптической когерентной томографии (OCT) на различных этапах: преинвазивная, 2 недели, 3 месяца, 6 месяцев и 12 месяцев. Автоматический пайплайн извлекал композитные, квантитативные и динамические фичи. Бинарные логистические регрессионные модели, как с динамическими, так и без них, оценивали значимость динамических параметров для предсказания лучше видимого активности (BCVA). Для повышения точности разработана модель DL, объединяющая клинические данные, фичи OCT и динамические параметры. ## Результаты Модель сегментации достигла высокой точности (mean Dice > 0.89) на всех временных точках. Динамические параметры показали значимое улучшение AUC логистической регрессии, особенно на 3-м месяце после операции. Модель DL, включающая динамические параметры, вы mosted лучшую точность и AUC по сравнению с регрессионными моделями, с улучшением до 0.12 в AUC на 3-м месяце. ## Значимость Результаты показывают, что динамические параметры значительно улучшают предсказания послеоперационного восстановления зрения. Автоматизированная модель может быть применена в качестве инструмента поддержки клинических решений для личностного лечения и мониторинга после макулярной хирургии. ## Выводы Интеграция динамических структурных параметров в DL-модели оказалась эффективной для предсказания послеоперационного восстановления зрения после макулярной хирургии. Дальнейшие исследования будут сосредоточены на дальнейшем уточнении моделей и оценке их практической эффективности в клинических условиях.

Annotation:

Purpose: To introduce novel dynamic structural parameters and evaluate their integration within a multimodal deep learning (DL) framework for predicting postoperative visual recovery in idiopathic full-thickness macular hole (iFTMH) patients. Methods: We utilized a publicly available longitudinal OCT dataset at five stages (preoperative, 2 weeks, 3 months, 6 months, and 12 months). A stage specific segmentation model delineated related structures, and an automated pipeline extracted quantitative...

ID: 2509.09227v1 eess.IV, cs.CV, I.4.6

arXiv PDF

📄 In-Loop Filtering Using Learned Look-Up Tables for Video Coding

2025-09-13

Авторы:

Zhuoyuan Li, Jiacheng Li, Yao Li, Jialin Li, Li Li, Dong Liu, Feng Wu

#### Контекст Видеокодирование является ключевым элементом современных технологий по трансляции и хранению видео. Одним из основных задачей видеокодирования является уменьшение визуальных артефактов и повышение качества изображения. Для этих целей применяется in-loop filtering (ILF), способ, который интегрируется в цикл кодирования для уменьшения ошибок и повышения качества видео. Недавно, нейронные сети-на основе (DNN) были применены к ILF и показали впечатляющие результаты в повышении качества. Однако, использование DNN приводит к высокой сложности вычислений и требованиям к высокопроизводительному оборудованию, что ограничивает применение таких схем в реальных условиях. Мы исследуем решение, основанное на использовании look-up tables (LUTs), которое позволяет реализовать ILF с меньшей сложностью и затратами. #### Метод Мы предлагаем LUT-ILF++, универсальную систему ILF, основанную на LUTs, для видеокодирования. Процесс включает несколько ключевых этапов: 1. **Обучение DNN с ограниченным диапазоном входных данных** для генерирования эффективных LUTs. 2. **Индексация LUTs** с использованием пользовательских механизмов, позволяющих хранить необходимую информацию с минимальными затратами. 3. **Кросс-компонентный механизм** для объединения работы с разными цветовыми компонентами. 4. **LUT-схема сжатия**, позволяющая уменьшить затраты на хранение LUTs. LUT-ILF++ был реализован в VVC reference software, что позволило провести эксперименты с реальными данными. #### Результаты Проведенные эксперименты показали, что LUT-ILF++ дает следующие результаты: - **0.82%/2.97%/1.63%** снижение битрейта при использовании AI/RA/BA конфигураций. - **0.85%/4.11%/2.06%** снижение битрейта для более сложных сценариев. - Значительно меньшее время выполнения и требования к оборудованию по сравнению с DNN-решениями. #### Значимость Предложенная система LUT-ILF++ может быть применена в различных областях, включая реальное время видеокодирование в телекоммуникационных сетях и потоковое видео. Она обеспечивает значительное сокращение затрат на вычисления и хранение по сравнению с DNN-решениями. Это делает ее привлекательной для следующих поколений видеокодирования. #### Выводы LUT-ILF++ демонстрирует эффективность в ILF, обеспечивая высокое качество изображения с низкой сложностью вычислений и затратами на хранение. В дальнейших исследованиях мы планируем расширить применение LUTs в другие аспекты видеокодирования и изучить возможности повышения производительности на более широком наборе данных.

Annotation:

In-loop filtering (ILF) is a key technology in video coding standards to reduce artifacts and enhance visual quality. Recently, neural network-based ILF schemes have achieved remarkable coding gains, emerging as a powerful candidate for next-generation video coding standards. However, the use of deep neural networks (DNN) brings significant computational and time complexity or high demands for dedicated hardware, making it challenging for general use. To address this limitation, we study a pract...

ID: 2509.09494v1 eess.IV, cs.CV, cs.MM

arXiv PDF

📄 Enhancing Privacy Preservation and Reducing Analysis Time with Federated Transfer Learning in Digital Twins-based Computed Tomography Scan Analysis

2025-09-11

Авторы:

Avais Jan, Qasim Zia, Murray Patterson

## Контекст В последние годы технология Digital Twin (DT) набирает всё большую популярность в медицине, особенно в области диагностики на основе изображений. Одним из ключевых приложений является анализ компьютерно-томографических (CT) сканов. Однако эта область сталкивается с рядом проблем, такими как высокий порог приватности данных, нехватка вычислительных ресурсов и разнообразие данных. Дополнительно, традиционные методы машинного обучения часто сталкиваются с проблемами, связанными с независимостью и идентичностью распределения данных (IID). Эти ограничения приводят к низкой точности моделей, предсказаниям, нежелательному влиянию на решения в области медицины и, в конечном итоге, к неэффективности в медицинской практике. Необходимо развитие методов, которые могут улучшить точность, защищать конфиденциальность и эффективно использовать ресурсы. Federated Transfer Learning (FTL) предлагается как новая модель для решения этих проблем в контексте DT-based CT scan analysis. ## Метод Federated Transfer Learning (FTL) — это новая архитектура, которая использует предварительно обученные модели и знания, передаваемые между узлами в федеративной сети. В этой работе, мы применяем FTL к анализу CT-сканов в контексте Digital Twin-enabled systems. Методология FTL включает в себя несколько этапов: 1. **Начальная обученная модель**: Мы используем предварительно обученные модели, которые способны эффективно обрабатывать разные типы данных. 2. **Федеративное обучение**: Узлы (например, Digital Twin-enabled CT scanners) обмениваются знаниями, чтобы улучшить модели, не раскрывая личные данные. 3. **Трансфер знаний**: Модели, обученные на одном узле, могут быть переданы другим узлам для улучшения общей точности. 4. **Приватность и безопасность**: Мы используем технологии хэширования и анонимности, чтобы защитить идентичность пациентов и сделать процесс безопасным. Технически, FTL использует алгоритмы, подобные Federated Averaging, но с дополнительными механизмами для улучшения точности и эффективности. ## Результаты Мы проводили эксперименты на независимой нейрологической CT-данных, чтобы оценить точность, трансфер знаний и время вывода. Мы сравнили FTL с традиционными методами, такими как Federated Learning (FL) и Clustered Federated Learning (CFL). Наши результаты показали, что FTL показывает лучшую точность, при этом уменьшая время обучения и улучшая понимание данных. Мы использовали метрики, такие как precision, recall, F1-score и confusion matrix. Также, мы оценили время вывода, что позволило нам понять, как FTL решает проблему реального времени в медицинской практике. ## Значимость FTL предлагает ряд преимуществ в различных сферах. В первую очередь, он обеспе

Annotation:

The application of Digital Twin (DT) technology and Federated Learning (FL) has great potential to change the field of biomedical image analysis, particularly for Computed Tomography (CT) scans. This paper presents Federated Transfer Learning (FTL) as a new Digital Twin-based CT scan analysis paradigm. FTL uses pre-trained models and knowledge transfer between peer nodes to solve problems such as data privacy, limited computing resources, and data heterogeneity. The proposed framework allows rea...

ID: 2509.08018v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Physics-Guided Rectified Flow for Low-light RAW Image Enhancement

2025-09-11

Авторы:

Juntai Zeng

## Контекст Процесс улучшения изображений, полученных в условиях низкого освещения, представляет собой высокотехнологичную проблему, которая широко применяется в сфере цифровой обработки изображений. Несмотря на то, что подходы, основанные на глубоком обучении, показали перспективу в решении этой задачи, они сталкиваются с ограничениями. Основной проблемой является недостаточная точность в моделировании реального шума сенсоров. Большинство существующих методов ограничиваются моделью простого шума, пропускают центральные аспекты физических процессов генерации шума и не учитывают персональные характеристики производства. Это приводит к неточностям в изображениях, особенно в сложных условиях освещения. Мотивировано этими проблемами, данная работа призвана развить более точную модель шума и применить ее к системе улучшения изображений. ## Метод Работа предлагает новую модель шума, которая включает в себя как добавочный, так и многочленный шум, а также интегрирует физические механизмы генерации шума. Для моделирования шума применяется физическое симулирование на уровне отдельных пикселей, что позволяет учитывать различия в производстве пикселей микросхем. Основная идея заключается в использовании физических механизмов, чтобы получить более точные шумовые модели, которые могут быть использованы в процессе улучшения изображений. Также предложен подход, основанный на ректифицированных потоках, который использует физические сигналы для улучшения изображений. ## Результаты Проведенные эксперименты основывались на созданном датасете LLID, который содержит изображения, полученные в условиях низкого освещения с камерой Sony A7S II. Результаты показали, что предложенная модель превосходит существующие подходы в метриках качества изображений, таких как PSNR и SSIM. Улучшенные изображения имеют более высокий уровень детализации и меньшую помеху по сравнению с другими методами. Это доказывает эффективность новой модели в обработке изображений, полученных в условиях низкого освещения. ## Значимость Предлагаемый подход может быть применен в различных областях, где требуется улучшение изображений в условиях низкого освещения, таких как астрономическая съемка, системы безопасности и мобильные устройства. Он предоставляет более точные и качественные изображения, что может повысить эффективность в различных сферах применения. Благодаря использованию физических моделей, данный подход обеспечивает более надежное и точное улучшение изображений, что делает его ценным для профессиональных и домашних применений. ## Выводы Работа представляет собой значительный

Annotation:

Enhancing RAW images captured under low light conditions is a challenging task. Recent deep learning based RAW enhancement methods have shifted from using real paired data to relying on synthetic datasets. These synthetic datasets are typically generated by physically modeling sensor noise, but existing approaches often consider only additive noise, ignore multiplicative components, and rely on global calibration that overlooks pixel level manufacturing variations. As a result, such methods stru...

ID: 2509.08330v1 eess.IV, cs.CV

arXiv PDF

📄 CNN-ViT Hybrid for Pneumonia Detection: Theory and Empiric on Limited Data without Pretraining

2025-09-11

Авторы:

Prashant Singh Basnet, Roshan Chitrakar

## Контекст Обнаружение пневмонии является ключевым вопросом в медицинских исследованиях из-за высокой смертности и широкого распространения. Традиционные методы диагностики часто сталкиваются с ограничениями, такими как неточность, долговременный процесс, и необходимость высококвалифицированных специалистов. Нейронные сети, особенно CNN и ViT, доказали свою эффективность в медицинской информатике. Однако, обучение этих моделей требует больших объемов данных и дополнительных ресурсов для предварительного обучения (pretraining). Это ограничивает их применение в ситуациях, где доступ к большим данным ограничен. В этом контексте важно исследовать возможность создания моделей с лучшим балансом между эффективностью и производительностью на ограниченных данных, не используя предварительное обучение. ## Метод Предложенный гибридный подход сочетает архитектуру CNN и ViT, чтобы объединить их отдельные преимущества. CNN известен своей способностью локального извлечения признаков, в то время как ViT эффективен в глобальном контексте. Методология включает проектирование и реализацию гибридной модели, использование адаптивных методов weight initialization и data augmentation для оптимизации обучения на ограниченных данных. Важной особенностью является отсутствие предварительного обучения, чтобы протестировать модель в "чистой" форме. Эксперименты проводились на различных размерах данных с балансировкой и небалансом классов. ## Результаты Исследования проводились с 50%, 25%, и 10% размеров обучающих наборов. Модель гибридного подхода показала высокую точность в обнаружении пневмонии, с максимальной recall-такой 0.9443 при 50% размера данных и стабильным F1-score в пределах 0.85 во всех наборах. Это указывает на надёжность модели в диагностике. Она также показала лучшую производительность по сравнению с CNN и ViT в условиях небалансированных наборов данных. Несмотря на сложность архитектуры, модель требовала почти одинакового времени обучения по сравнению с трансформерами. ## Значимость Предложенная модель имеет значительное потенциальное применение в разработке систем автоматизированной диагностики. Она может быть применена в районах с ограниченным доступом к данным, где предварительно обученные модели недоступны. Её преимущество в том, что она достигает высокой производительности без задействования дополнительных ресурсов. Это может способствовать улучшению доступа к медицинским услугам и повышению точности диагностики в районах с недостатком квалифицированных специалистов. ## Выводы В данном исследовании был предложен и экспериментально протестирован гибридный подход

Annotation:

This research explored the hybridization of CNN and ViT within a training dataset of limited size, and introduced a distinct class imbalance. The training was made from scratch with a mere focus on theoretically and experimentally exploring the architectural strengths of the proposed hybrid model. Experiments were conducted across varied data fractions with balanced and imbalanced training datasets. Comparatively, the hybrid model, complementing the strengths of CNN and ViT, achieved the highest...

ID: 2509.08586v1 eess.IV, cs.CV

arXiv PDF

1
2
12
13
14
15
16
26
27

Показано 131 - 140 из 268 записей