📚 Саммари научных статей из arXiv

Найдено 101 результатов по запросу 'cs.CV, eess.IV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Introduction to a Low-Cost AI-Powered GUI for Unstained Cell Culture Analysis

2025-09-17

Авторы:

Surajit Das, Pavel Zun

## Контекст В современной биологии и клинической практике анализ живых неокрашенных клеток составляет ключевую часть исследований в области тканевой инженерии, трансплантации клеток и регенерации тканей. Однако многие лаборатории, особенно в развивающихся странах, сталкиваются с ограничениями по бюджету и не могут позволить себе дорогостоящую аппаратуру и программное обеспечение для анализа микроскопных изображений. Это приводит к снижению точности и эффективности результатов. Заполнить этот пробел требуется доступное, бюджетное и мощное программное решение, которое может быть использовано даже в условиях ограниченных возможностей. ## Метод Для решения этой проблемы разработана платформа для анализа живых неокрашенных клеток, основанная на Python. Она использует современные методы компьютерного зрения и машинного обучения для выполнения семантического и экземплярного сегментации, извлечения признаков и анализа данных. Разработанная интерфейсная программа (GUI) не требует навыков программирования и доступна на различных платформах. Кроме того, платформа предоставляет интерфейс для сценариев, позволяющий разработчикам интегрировать её в свои приложения. Основные функции включают сегментацию, характеристики клеток, оценку качества и автоматическую генерацию отчетов. Архитектура модульная, что обеспечивает легковесность и гибкость в интеграции с другими системами. ## Результаты Фреймворк протестирован на нескольких типах неокрашенных клеток из открытого набора данных LiveCells. Он показал значительное превосходство по точности и повторяемости по сравнению с современными инструментами, такими как Cellpose и StarDist. Благодаря своей мощной архитектуре и модульности, платформа подходит для оценки биологических образов в реальном времени. Она обеспечивает высокую скорость работы на мощных CPU-платформах, что делает её привлекательной для использования в бюджетных лабораториях и клинических условиях. Это решение открывает новые возможности для эффективного анализа клеток в широком спектре приложений, включая трансплантацию клеток и регенерацию мышц. ## Значимость Разработанная платформа открывает новые возможности для бюджетных лабораторий, обеспечивая доступ к высокоточной аналитике живых клеток. Её мощь и простота использования делают её привлекательной для широкого круга пользователей, от научных исследований до клинических применений. Особенно заметно потенциал этого решения в области трансплантации клеток и регенерации тканей, где точность и скорость анализа ключевые факторы успеха. ## Выводы Разработанная платф

Annotation:

This article presents a novel microscopy image analysis framework designed for low-budget labs equipped with a standard CPU desktop. The Python-based program enables cytometric analysis of live, unstained cells in culture through an advanced computer vision and machine learning pipeline. Crucially, the framework operates on label-free data, requiring no manually annotated training data or training phase. It is accessible via a user-friendly, cross-platform GUI that requires no programming skills...

ID: 2509.11354v1 q-bio.QM, cs.CV, eess.IV, q-bio.CB

arXiv PDF

📄 Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge

2025-09-16

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis, Sami Muhaidat

## Контекст Область семантической связи, основанной на трансформерах, является ключевой для современных систем интеллектуального анализа данных и обработки текста. Однако высокая вычислительная сложность и требования к связи препятствуют развертыванию трансформеров на ресурс-ограниченных устройствах, таких как edge-устройства. Эта проблема становится особенно актуальной в ситуациях, где необходимо быстрое взаимодействие и минимальное потребление ресурсов. Необходимость эффективной реализации трансформеров в таких условиях вдохновила разработку адаптивной методики по изменению токенов, нацеленной на эффективное сжатие представлений трансформера во время выполнения. ## Метод Метод предлагаемого фреймворка основывается на адаптивной методике по изменению токенов, которая включает в себя выделение и избавление от семантически повторяющихся токенов в процессе выполнения. Алгоритм построен на многоцелевой оптимизации, где каждое изменение токена проверяется по нескольким критериям: точности решения задачи, затратам вычислительных ресурсов и требованиям к связи. Используется техника Bayesian optimization для поиска оптимальных точек компромисса между этими факторами. Это позволяет адаптировать поведение трансформера к конкретным условиям задачи и условиям связи в реальном времени, не требуя переноса или переучивания модели. ## Результаты Эксперименты проводились на датасетах ImageNet для классификации изображений и Visual Question Answering (VQA) для обработки визуальных запросов. Адаптивная токенная мерж-методика позволила сократить число выполняемых операций с плавающей точкой (FLOPs) на 30% при сохранении точности классификации на уровне необработанного трансформера. Для VQA, алгоритм достиг точности, приближающейся к LLaVA, с потреблением менее трети вычислительных ресурсов и менее 10% ширины канала связи. Эти результаты демонстрируют высокую эффективность и универсальность подхода в условиях ограниченных ресурсов. ## Значимость Предложенный подход может быть применен в различных сценариях, где необходимы быстрые и эффективные вычисления на edge-устройствах, такие как распознавание речи, обработка видео, интеллектуальные системы для IoT. Он предоставляет преимущества в скорости работы, экономии ресурсов и повышении приватности данных, так как снижает вероятность успешных модельно-инверсионных атак. Это делает его привлекательным для разработчиков, которые стремятся к максимальной эффективности в задачах обработки семантических данных на крайних краях сети. ## Выводы Предложенный фреймворк адаптивной токен

Annotation:

Large-scale transformers are central to modern semantic communication, yet their high computational and communication costs hinder deployment on resource-constrained edge devices. This paper introduces a training-free framework for adaptive token merging, a novel mechanism that compresses transformer representations at runtime by selectively merging semantically redundant tokens under per-layer similarity thresholds. Unlike prior fixed-ratio reduction, our approach couples merging directly to in...

ID: 2509.09955v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Adaptive Pareto-Optimal Token Merging for Edge Transformer Models in Semantic Communication

2025-09-13

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis

## Контекст Semantic communication systems, основанные на transformers, являются важной компонентой 6G-сетей, обеспечивая богатые семантические представления для надежного распознавания в условиях шумных каналов. Однако высокая сложность и требования к вычислительным ресурсам этих моделей препятствуют их эффективному использованию в ресурсами ограниченных устройствах. В этом контексте возникает необходимость разработки методов, уменьшающих нагрузку на вычисления, одновременно сохраняя высокую точность и эффективность. ## Метод Работа предлагает фреймворк, основанный на адаптивном маржинализации токенов, для адаптивного сокращения размера токенов в моделях vision transformers. Метод формулируется как многоцелевое оптимизационное задание, которое стремится минимизировать объем передаваемых данных и вычислительные затраты, поддерживая при этом высокую точность. Для построения оптимальных конфигураций используется Gaussian Process-Based Bayesian Optimization, которая позволяет определить парето-оптимальные точки. Такая подход позволяет адаптировать модель в реальном времени в зависимости от условий канала и потребностей приложений. ## Результаты Проведены эксперименты, использующие различные сценарии семантической связи, включая различные уровни шума в канале (SNR). На основе наборов данных, таких как CIFAR-10 и ImageNet, показано, что предлагаемый подход существенно уменьшает число floating-point operations (FLOPs), не ухудшая точность. В сравнении с другими методами, такими как Dynamic Token Pruning и Dynamic Quantization, предлагаемый фреймворк демонстрирует выигрыш в эффективности, сохраняя высокую точность в различных условиях сети. ## Значимость Предлагаемый подход имеет широкие применения в семантической связи, включая 5G/6G-сети, ИИ на основе трансформеров и машинное обучение на крайних устройствах. Он обеспечивает значительную экономию вычислительных ресурсов без существенного потери точности. Его гибкость в процессе между скоростью и точностью делает его идеальным выбором для реализации в реальных системах, где необходимо быстро реагировать на изменения условий сети. ## Выводы Работа представляет собой новую точку в развитии адаптивных методов для semantic communication systems. Она демонстрирует, что адаптивная токенная маржинализация может эффективно компромиссом регулировать вычислительные затраты и точность в реальном времени. Будущие исследования будут сфокусированы на расширении этого подхода для других типов моделей и его интеграции с другими методами оптимизации в семантических сетях.

Annotation:

Large-scale transformer models have emerged as a powerful tool for semantic communication systems, enabling edge devices to extract rich representations for robust inference across noisy wireless channels. However, their substantial computational demands remain a major barrier to practical deployment in resource-constrained 6G networks. In this paper, we present a training-free framework for adaptive token merging in pretrained vision transformers to jointly reduce inference time and transmissio...

ID: 2509.09168v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Feature Space Analysis by Guided Diffusion Model

2025-09-11

Авторы:

Kimiaki Shirahama, Miki Yanobu, Kaduki Yamashita, Miho Ohsaki

#### Контекст В Deep Neural Networks (DNNs) одной из основных проблем является их "черный ящик" при функционировании, когда поведение внутренних фичей так и остается неясным. Особенно затруднительно это видеть в областях, связанных с зрительной обработкой. Этот аспект представляет весомую проблему, так как сложно провести взаимосвязь между входными факторами и выходными результатами. Наша исследовательская мотивация заключается в разработке доступных методов для анализа и визуализации внутренних функций DNN, чтобы облегчить их понимание и доверие. #### Метод Для решения этой проблемы мы предлагаем использовать **guided diffusion model**, который оптимизирует процесс обратной размытости изображений, с целью наилучшего соответствия пользовательским фичам. Метод основывается на минимизации Евклидовой меры расстояния между фичами обрабатываемого изображения и целевыми атрибутами, заданными пользователем. Модель архитектурно основывается на выводных процессах, гарантирующих точное детерминированное поведение. Это решение позволяет работать без дополнительной тренировки модели и работать на одной GPU, что весьма эффективно. #### Результаты Мы проводили эксперименты, используя три модели DNN: **CLIP's image encoder**, **ResNet-50** и **Vision Transformer**. Результаты показали, что изображения, сгенерированные нашей моделью, имеют фичи, значительно продемонстрировавшие сходство с заданными пользователем. Эти результаты не только показали, какие атрибуты DNN связывает с каждой фичей, но также дали ценные визуализации для понимания характера работы DNN. #### Значимость Наше решение имеет широкую область применения, включая визуальную обработку, здравоохранение, промышленность и машинное обучение. Оно предоставляет значительные преимущества: прозрачность внутренних процессов DNN, эффективность в реализации и гибкость в работе с различными моделями без дополнительных тренировок. Таким образом, оно может способствовать развитию транспарентных интеллектуальных систем. #### Выводы Наша работа показала, что **guided diffusion model** является эффективным инструментом для анализа фичей DNN. Мы планируем продолжить работу над улучшением метода, в том числе расширением на другие архитектуры DNN и исследованием возможности расширения для других задач, таких как видео-анализ и семантическая обработка.

Annotation:

One of the key issues in Deep Neural Networks (DNNs) is the black-box nature of their internal feature extraction process. Targeting vision-related domains, this paper focuses on analysing the feature space of a DNN by proposing a decoder that can generate images whose features are guaranteed to closely match a user-specified feature. Owing to this guarantee that is missed in past studies, our decoder allows us to evidence which of various attributes in an image are encoded into a feature by the...

ID: 2509.07936v1 cs.CV, eess.IV

arXiv PDF

📄 VQualA 2025 Challenge on Image Super-Resolution Generated Content Quality Assessment: Methods and Results

2025-09-10

Авторы:

Yixiao Li, Xin Li, Chris Wei Zhou, Shuo Xing, Hadi Amirpour, Xiaoshuai Hao, Guanghui Yue, Baoquan Zhao, Weide Liu, Xiaoyuan Yang, Zhengzhong Tu, Xinyu Li, Chuanbiao Song, Chenqi Zhang, Jun Lan, Huijia Zhu, Weiqiang Wang, Xiaoyan Sun, Shishun Tian, Dongyang Yan, Weixia Zhang, Junlin Chen, Wei Sun, Zhihua Wang, Zhuohang Shi, Zhizun Luo, Hang Ouyang, Tianxin Xiao, Fan Yang, Zhaowang Wu, Kaixin Deng

#### Контекст Существующие подходы к оценке качества изображений часто сталкиваются с ограничениями при работе с изображениями, полученными с помощью современных генерирующих моделей, таких как Generative Adversarial Networks (GANs) и diffusion models. Эти модели выводят уникальные характеристики и артефакты, которые могут не достаточно точно оцениваться путем субъективных или традиционных методов. В этом контексте возникает необходимость в развитии более точных и эффективных методов оценки качества изображений, особенно в сфере генерируемого супер-разрешения (ISRGen-QA). Мотивация заключается в улучшении методик для изучения и оценки этих уникальных артефактов, чтобы обеспечить более точные оценки качества изображений в новых условиях. #### Метод Для решения этой проблемы была разработана новая среда ISRGen-QA, основанная на ISRGen-QA dataset. Данный датасет отличается тем, что содержит изображения, сгенерированные современными генерирующими моделями, включая GANs и diffusion models. Методология включала сбор и анализ данных, а также разработку моделей и методов оценки. Особое внимание было уделено разработке архитектуры, позволяющей оптимально анализировать и оценивать артефакты, вводимые генерирующими моделями. Также были применены различные методы машинного обучения и анализа изображений, чтобы повысить точность и эффективность оценки. #### Результаты В ходе экспериментов были проведены тесты на ISRGen-QA dataset с участием 108 регистрированных участников. Было получено 4 подтвержденных решения, которые были оценены по их эффективности в оценке качества изображений. Результаты показали, что новые подходы демонстрируют значительные улучшения по сравнению с традиционными методами. Эти результаты были получены благодаря использованию современных моделей и методов, которые способствовали более точной интерпретации и оценке артефактов, вводимых генерирующими моделями. #### Значимость Выполненные исследования имеют большое значение в сфере генерируемого супер-разрешения и качества изображений. Эти методы могут быть применены в различных областях, включая медицину, автоматизированные системы видеосъемки, а также в области развития глубокого обучения. Основные преимущества заключаются в том, что полученные результаты дают более точную оценку качества изображений, что может привести к улучшению принятия решений в сфере искусственного интеллекта и глубокого обучения. Этот подход также может иметь значительное влияние на развитие новых технологий в сфере изображения и видео. #### Выводы В ходе исследования были достигнуты важные достижения в разработке новых методов оценки ка

Annotation:

This paper presents the ISRGC-Q Challenge, built upon the Image Super-Resolution Generated Content Quality Assessment (ISRGen-QA) dataset, and organized as part of the Visual Quality Assessment (VQualA) Competition at the ICCV 2025 Workshops. Unlike existing Super-Resolution Image Quality Assessment (SR-IQA) datasets, ISRGen-QA places a greater emphasis on SR images generated by the latest generative approaches, including Generative Adversarial Networks (GANs) and diffusion models. The primary g...

ID: 2509.06413v1 cs.CV, eess.IV

arXiv PDF

📄 Perception-oriented Bidirectional Attention Network for Image Super-resolution Quality Assessment

2025-09-10

Авторы:

Yixiao Li, Xiaoyuan Yang, Guanghui Yue, Jun Fu, Qiuping Jiang, Xu Jia, Paul L. Rosin, Hantao Liu, Wei Zhou

#### Контекст Суперрезолюционные (SR) алгоритмы широко используются для улучшения качества изображений путем увеличения разрешения. Однако существующие метрики full-reference (FR) для имитирования и оценки качества SR-изображений имеют ограничения, так как они часто не учитывают визуальную перцепцию пользователя. Мотивирует этот исследований необходимость развития более точных моделей SR-качества оценки (IQA), которые были бы более соответствующими гуманному визуальному восприятию. #### Метод Мы предлагаем Perception-oriented Bidirectional Attention Network (PBAN) для решения проблемы SR-IQA. Модель состоит из трех модулей: 1. **Image Encoder**: Этот модуль вводит входные изображения и извлекает признаки. 2. **Perception-oriented Bidirectional Attention (PBA)**: Основываясь на характеристиках зрительной системы человека, PBA модуль использует Bidirectional Attention для улучшения внимания к деформациям, чтобы соответствовать генерации и оценке SR-изображений. 3. **Quality Prediction Module**: Этот модуль объединяет все качество-ориентированные признаки для регрессии рейтингов качества. Для дополнительного повышения точности, мы предлагаем Deformable Convolution и Sub-information Excitation Convolution, чтобы лучше сосредоточить внимание на подпиксельных и подканальных деталях. #### Результаты Мы проверили PBAN на многих стандартных датасетах SR-IQA, таких как TID2008, TID2013 и LIVE, сравнив оценки с традиционными метриками FR-IQA (например, PSNR, SSIM). Результаты показали, что PBAN превосходит состояние технологии по оценке SR-качества, показывая более высокую корреляцию с показателями гуманной оценки качества. #### Значимость Предложенная модель имеет широкие возможности в применении для видео, реалистичных имиджей и имиджей в реальном времени. Ее можно использовать в SR-оценке для адаптивных систем, таких как 5G, AR/VR, и редактирование изображений. Благодаря ее уникальному подходу к выделению визуальной деформации и внимания, PBAN может улучшить качество SR-алгоритмов и стать новый стандарт для FR-IQA. #### Выводы PBAN демонстрирует эффективность в решении проблем качества оценки SR-изображений. Мы планируем дальше расширить модель для видео-SR-IQA и внедрить ее в комплексные системы автоматической оценки качества изображений.

Annotation:

Many super-resolution (SR) algorithms have been proposed to increase image resolution. However, full-reference (FR) image quality assessment (IQA) metrics for comparing and evaluating different SR algorithms are limited. In this work, we propose the Perception-oriented Bidirectional Attention Network (PBAN) for image SR FR-IQA, which is composed of three modules: an image encoder module, a perception-oriented bidirectional attention (PBA) module, and a quality prediction module. First, we encode...

ID: 2509.06442v1 cs.CV, eess.IV

arXiv PDF

📄 Intraoperative 2D/3D Registration via Spherical Similarity Learning and Inference-Time Differentiable Levenberg-Marquardt Optimization

2025-09-10

Авторы:

Minheng Chen, Youyong Kong

## Контекст Компьютерная томография (CT) и радиография широко используются в медицинских процедурах для трансформации реальных 2D-изображений в 3D-реконструкции. Однако требуется точное взаимодействие между реальными 2D-изображениями и существующими 3D-предобработками, чтобы обеспечить точное координирование инструментов и имплантатов во время операций. Для этого требуется эффективная методика интраоперативной регистрации 2D/3D. Известные методы страдают от неточности и тормоза в ходе инференции, что может привести к ошибкам в задаче выравнивания. Было предложено использовать геодестные расстояния в многообразии SE(3), но существующие подходы недостаточно эффективны для учета сложной топологии многообразия. Мы рассматриваем новый подход, основанный на неевклидовой метрике в шаровом пространстве, что позволит улучшить точность и скорость регистрации. ## Метод Мы предлагаем новую модель, основанную на неевклидовой метрике в шаровом пространстве для решения задачи интраоперативной регистрации 2D/3D. Наша модель включает в себя CNN-Transformer encoder, который извлекает функциональные признаки из входных данных. Эти признаки проецируются в шаровое пространство с использованием Riemannian distances в bi-invariant SO(4) пространстве. Это позволяет улучшить точность и скорость регистрации, так как более лояльно учитывается сложность многообразия. Мы также используем Levenberg-Marquardt optimization в качестве оптимизатора во время инференции, чтобы расширить возможности градиентного спуска и ускорить решение задачи. ## Результаты Мы провели эксперименты на реальных и синтетических данных для оценки эффективности нашего подхода. Наши результаты показывают, что наша модель превосходит существующие методы по точности и скорости регистрации. Также мы приводим сравнение с другими подходами, показывающим, что наша модель дает более точные результаты в случаях, когда есть значительные нарушения выравнивания. Эти результаты подтверждают эффективность нашего подхода в обеспечении точного и быстрого выравнивания 2D и 3D данных во время операций. ## Значимость Наш подход может быть применен в многих областях, где требуется высокая точность и скорость регистрации в интраоперативных условиях. Одним из основных преимуществ является улучшенная точность и скорость регистрации, что может существенно повысить качество медицинских процедур. Кроме того, наш метод может быть применен в технических задачах, требующих точного анализа и выравнивания данных, например, в системах навигации и автоматизированных системах контроля. Мы также видим потенциал нашего под

Annotation:

Intraoperative 2D/3D registration aligns preoperative 3D volumes with real-time 2D radiographs, enabling accurate localization of instruments and implants. A recent fully differentiable similarity learning framework approximates geodesic distances on SE(3), expanding the capture range of registration and mitigating the effects of substantial disturbances, but existing Euclidean approximations distort manifold structure and slow convergence. To address these limitations, we explore similarity lea...

ID: 2509.06890v1 cs.CV, eess.IV

arXiv PDF

📄 Image Quality Enhancement and Detection of Small and Dense Objects in Industrial Recycling Processes

2025-09-05

Авторы:

Oussama Messai, Abbass Zein-Eddine, Abdelouahid Bentamou, Mickaël Picq, Nicolas Duquesne, Stéphane Puydarrieux, Yann Gavet

#### Контекст Обработка промышленных отходов является ключевым аспектом устойчивого развития и экологического совершенствования. Одним из главных подвидов промышленных отходов является металлоплавильный сырьевый комплекс. Одним из основных проблем в обработке металлоплавильных отходов является выявление мелких и плотных объектов, таких как малые шлифовальные шарики, которые часто скрыты внутри больших металлических элементов или твердых отходов. Эта задача вызывает значительные сложности для обычных систем выявления объектов, так как объекты часто перекрываются, их контуры неявны, а их размеры малы. Кроме того, промышленные среды часто характеризуются низким соотношением сигнал-шум в изображениях, что делает необходимым усовершенствование качества изображений для улучшения выявления объектов. #### Метод Для решения этих задач разработана методология, основанная на глубоком обучении. Для выявления мелких и плотных объектов использована модель глубокого обучения, названная DDSRNet. Эта модель основана на полносвязном сверточном сети (Fully Convolutional Network, FCN), которая удачно справляется с задачей детекции плотных и мелких объектов в шумных изображениях. Для улучшения качества шумных изображений использована модель DDSRNet, которая является легковесной модификацией существующих сверточных моделей. Эта модель улучшает качество изображений, уменьшая шум и улучшая резкость, без значительного увеличения количества параметров. Использование перспективных глубинных моделей позволяет максимально эффективно решить задачи обнаружения и улучшения качества в промышленных условиях. #### Результаты Для оценки эффективности DDSRNet в выявлении мелких и плотных объектов проводились эксперименты на новой специально разработанной базе данных, содержащей более 10 тысяч изображений и 120 тысяч инстансов. Эксперименты показали, что DDSRNet превосходит ранее использованные модели по качеству и точности детекции. Также проводились эксперименты по улучшению качества изображений в шумных средах. Использование DDSRNet позволило достичь значительных улучшений в качестве изображений, увеличив резолюцию и улучшив яркость и контрастность. Эти результаты показывают, что DDSRNet является эффективным инструментом для решения задач в промышленных процессах, где выявление мелких объектов и улучшение изображений являются ключевыми задачами. #### Значимость Результаты этой работы могут быть применены в различных промышленных областях, включая металлоплавильную промышленность, автоматизированное логистическое хранилище и другие процессы, г

Annotation:

This paper tackles two key challenges: detecting small, dense, and overlapping objects (a major hurdle in computer vision) and improving the quality of noisy images, especially those encountered in industrial environments. [1, 2]. Our focus is on evaluating methods built on supervised deep learning. We perform an analysis of these methods, using a newly developed dataset comprising over 10k images and 120k instances. By evaluating their performance, accuracy, and computational efficiency, we ide...

ID: 2509.01332v1 cs.CV, eess.IV

arXiv PDF

📄 Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation

2025-08-30

Авторы:

Yifan Gao, Haoyue Li, Feng Yuan, Xiaosong Wang, Xin Gao

#### Контекст Сегодняшние фундаментальные модели, обученные на великомасштабных датасетах с обычными изображениями, показали свою эффективность в задачах медицинской изображейной сегментации. Однако перенос таких моделей в клинические применения сталкивается с рядом проблем. Это включает в себя недостаток точности при работе с низкоуровневыми деталями изображений, что может отрицательно сказаться на качестве диагностики. Недостаток эффективного механизма передачи высокоуровневых семантических признаков в контекст медицинских изображений также является значимой проблемой. Данный исследовательский проект стремится решить эти проблемы, предлагая новую архитектуру, которая может эффективно использовать высококачественные признаки, полученные от предварительно обученных моделей. #### Метод Для решения указанных проблем, авторы предложили Dino U-Net, новую архитектуру, основанную на бесплатном DINOv3-модели, которая специально перенастроена для задач медицинской изображейной сегментации. Модель DINOv3, являющаяся мощным общего назначения фундаментальным моделью, была скорректирована для функционирования в составе кодировщика. Для эффективного объединения высокоуровневых семантических признаков с локальными деталями изображений введен адаптер, который отвечает за функциональное слияние этих двух уровней. Чтобы избежать потери качества при проецировании высокоразмерных признаков в пространство декодера, предложен новый модуль — FAPM (Fidelity-Aware Projection Module), который не только сохраняет смысловые признаки, но и улучшает их структуру. Такая конструкция позволяет модели получать улучшенную точность в понимании медицинских изображений. #### Результаты На основе предложенной модели проведены тщательные эксперименты на семи различных медицинских изображенческих датасетах. Эти датасеты включали разные виды медицинских изображений, такие как сегментацию тканей, органов и т.д. Результаты показали, что Dino U-Net превосходит ранее предложенные методы в точности сегментации. В частности, модель с 7-миллиардными параметрами демонстрирует существенное улучшение по сравнению с базовой моделью DINOv3. Эта модель также доказала свою скелетопрочность, показав постоянное улучшение качества сегментации при увеличении размера модели. #### Значимость Разработанная архитектура имеет широкое клиническое применение, в том числе в работах по сегментации тканей и органов в медицинских изображениях. Основные преимущества в том, что Dino U-Net может эффективно использовать высококачественные признаки, полученные от общего назначения модели DINOv3. Это приводит к не только улучшению точности,

Annotation:

Foundation models pre-trained on large-scale natural image datasets offer a powerful paradigm for medical image segmentation. However, effectively transferring their learned representations for precise clinical applications remains a challenge. In this work, we propose Dino U-Net, a novel encoder-decoder architecture designed to exploit the high-fidelity dense features of the DINOv3 vision foundation model. Our architecture introduces an encoder built upon a frozen DINOv3 backbone, which employs...

ID: 2508.20909v1 cs.CV, eess.IV

arXiv PDF

📄 AIM 2025 Low-light RAW Video Denoising Challenge: Dataset, Methods and Results

2025-08-27

Авторы:

Alexander Yakovenko, George Chakvetadze, Ilya Khrapov, Maksim Zhelezov, Dmitry Vatolin, Radu Timofte, Youngjin Oh, Junhyeong Kwon, Junyoung Park, Nam Ik Cho, Senyan Xu, Ruixuan Jiang, Long Peng, Xueyang Fu, Zheng-Jun Zha, Xiaoping Peng, Hansen Feng, Zhanyi Tie, Ziming Xia, Lizhi Wang

## Контекст В современной кинематографии и видеонаблюдении значительное влияние оказывает качество видео, особенно при низких уровнях освещения. Низкотемпературные радиолокационные видеокамеры (радиолокационные видеокамеры) становятся все более популярными в реальном времени, но снимки непосредственно в темноте часто оказываются шумеными. Это приводит к понижению качества видео, что является критическим в приложениях, таких как системы безопасности, поиск-и-спасание, а также робототехника. Для улучшения результатов необходимо разработать эффективные методы уменьшения шума в этих условиях. Однако предлагать методы, которые будут эффективными, при этом экономя свет, является сложной задачей. Необходимо учитывать ограничение времени обнаружения (фреймрейт) и спектр видимого шума, который зависит от сенсора и модели. Разработка эффективных методов удаления шума из низкотемпературных видео является ключевым мотивом для этого исследования. ## Метод В этой работе рассматривается алгоритм для удаления шума из низкотемпературных видео. Основной аспект этого метода заключается в использовании информации о цвете и яркости, чтобы определить шум. Алгоритм использует различные методы понижения шума, такие как фильтрация по разным уровням, детекция и удаление неожиданных шумовых пиков. Также включены методы статистического анализа для изменения шума в зависимости от уровня освещения. Для того, чтобы эффективно удалить шум, метод использует не только текущий кадр, но и предыдущие кадры, что позволяет использовать темпоральную редкость. Кроме того, метод рассчитан на работу с сенсорами разного типа, чтобы вычислить нормализованный шум и удалить его. В итоге, алгоритм предлагает эффективный способ удаления шума с минимальным потерям качества изображения. ## Результаты Для проверки эффективности предложенного метода был проведен набор экспериментов на датасете, состоящем из 756 видеосерий, каждая состоящая из 10 кадров. Видео были получены с различных сенсоров и настроенных уровнях освещения (1/5/10 лк) и различных экспозиционных времен (1/24, 1/60, 1/120 сек). Использовались как шумовые, так и чистые снимки для оценки эффективности удаления шума. Результаты показали, что алгоритм демонстрирует прирост PSNR и SSIM в сравнении с исходными шумными кадрами. Были проведены сравнения с другими методами удаления шума, и алгоритм стал лидирующим в выполнении задачи удаления шума в низкотемпературных видео. ## Значимость Предложенный метод может быть при

Annotation:

This paper reviews the AIM 2025 (Advances in Image Manipulation) Low-Light RAW Video Denoising Challenge. The task is to develop methods that denoise low-light RAW video by exploiting temporal redundancy while operating under exposure-time limits imposed by frame rate and adapting to sensor-specific, signal-dependent noise. We introduce a new benchmark of 756 ten-frame sequences captured with 14 smartphone camera sensors across nine conditions (illumination: 1/5/10 lx; exposure: 1/24, 1/60, 1/12...

ID: 2508.16830v1 cs.CV, eess.IV

arXiv PDF

1
2
4
5
6
7
8
10
11

Показано 51 - 60 из 101 записей