📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Wei Shang, Wanying Zhang, Shuhang Gu, Pengfei Zhu, Qinghua Hu, Dongwei Ren
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Arbitrary-scale video super-resolution (AVSR) aims to enhance the resolution
of video frames, potentially at various scaling factors, which presents several
challenges regarding spatial detail reproduction, temporal consistency, and
computational complexity. In this paper, we propose a strong baseline BasicAVSR
for AVSR by integrating four key components: 1) adaptive multi-scale frequency
priors generated from image Laplacian pyramids, 2) a flow-guided propagation
unit to aggregate spatiotempora...
Авторы:
Fuchen Li, Yansong Du, Wenbo Cheng, Xiaoxia Zhou, Sen Yin
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Consumer-grade camera systems often struggle to maintain stable image quality
under complex illumination conditions such as low light, high dynamic range,
and backlighting, as well as spatial color temperature variation. These issues
lead to underexposure, color casts, and tonal inconsistency, which degrade the
performance of downstream vision tasks. To address this, we propose
ACamera-Net, a lightweight and scene-adaptive camera parameter adjustment
network that directly predicts optimal exposu...
Авторы:
Meng Yang, Fan Fan, Zizhuo Li, Songchu Deng, Yong Ma, Jiayi Ma
####################
## Контекст
####################
Multimodal image matching является ключевым заданием в области кросс-модального визуального перцепции, слияния и анализа данных. Оно заключается в установлении пиксельных соответствий между изображениями различных модальностей, таких как RGB и энергетические изображения. Однако высокая разница в аппаратуре и внешних условиях затрудняет этот процесс. Ограниченность высококачественных данных для обучения искусственных нейронных сетей существенно снижает их точность и универсальность. Vision Foundation Model (VFM) становится решением этой проблемы: он обучен на огромных данных и производит общие, устойчивые к модальности функции, которые могут быть использованы в разных сценариях. Мы предлагаем DistillMatch — метод, использующий методы знаний видной модели VFM для повышения эффективности метода мультимодального матчинга.
####################
## Метод
####################
DistillMatch использует знания от VFM (например, DINOv2 и DINOv3) для построения легковесной модели-ученика. Метод добавляет в функции выделение модальности, которое помогает сохранить специфические для модальности функции. В дополнение, мы разработали V2I-GAN, архитектуру, которая увеличивает данные с помощью перевода видимых изображений в изображения с подобным моментом. Метод DistillMatch стремится к более высокой точности и универсальности в кросс-модальном матчинге.
####################
## Результаты
####################
Мы проводили эксперименты на нескольких стандартных наборах данных. DistillMatch показал существенное улучшение по сравнению с существующими методами в кросс-модальном матчинге. Он достиг более высокой точности и универсальности, особенно в сложных условиях, таких как различия в модальностях и малом количестве данных. Эти результаты подтверждают эффективность нашего подхода в адаптации к различным сценариям.
####################
## Значимость
####################
DistillMatch может применяться в различных областях, таких как кросс-модальный анализ, синтез изображений и системы поиска объектов. Он предоставляет высокую точность и гибкость, что делает его полезным для сложных задач визуального перцепции. Благодаря универсальности и эффективности, DistillMatch может стать мощным инструментом для развития технологий визуального анализа.
####################
## Выводы
####################
Мы предложили DistillMatch — метод мультимодального матчинга, который использует знания из VFM для повышения качества и универсальности. Мы также разработали V2I-GAN для увеличения данных. Эксперименты показали существенное улучшение по сравнению с другими методами. Будущие исследования будут уделять внимание улучшению производительности для более сложных задач.
Annotation:
Multimodal image matching seeks pixel-level correspondences between images of
different modalities, crucial for cross-modal perception, fusion and analysis.
However, the significant appearance differences between modalities make this
task challenging. Due to the scarcity of high-quality annotated datasets,
existing deep learning methods that extract modality-common features for
matching perform poorly and lack adaptability to diverse scenarios. Vision
Foundation Model (VFM), trained on large-sca...
📄 FunKAN: Functional Kolmogorov-Arnold Network for Medical Image Enhancement and Segmentation
2025-09-19Авторы:
Maksim Penkin, Andrey Krylov
#### Контекст
Medical image enhancement и segmentation являются критически важными задачами в современной клинической практике, но они ограничены искажениями и сложными анатомическими различиями. Традиционные методы deep learning часто основываются на сложных архитектурах с ограниченной интерпретируемостью. Хотя Kolmogorov-Arnold networks предлагают интерпретируемые решения, их использование склоняет функции в развернутой форме, что ломает пространственную структуру изображений. Мы предлагаем **Functional Kolmogorov-Arnold Network (FunKAN)** — новую функциональную нейросеть, специально разработанную для обработки изображений. Она генерически обобщает теорему Колмогорова-Арнольда на функциональные пространства и использует преобразования Фурье с базисом Гермита.
#### Метод
FunKAN основывается на каноническом Kolmogorov-Arnold network с функциональным представлением входных данных. Чтобы сохранить пространственную структуру, мы аппроксимируем входные данные с помощью Гермитовых функций и векторизуем их. Основная архитектура состоит из нейронных слоев, которые учитывают композицию внутренних функций. Мы оптимизируем FunKAN с помощью адаптивного метода градиентов и используем третичные функции для вычисления градиентов. Для segmentation, мы расширяем FunKAN в U-FunKAN, добавив encoder-decoder с skip-connections для улучшения передачи контекста.
#### Результаты
Мы проверили FunKAN на нескольких задачах обработки медицинских изображений, включая suppression Gibbs ringing в MRI и benchmarking на IXI dataset. На BUSI, GlaS и CVC-ClinicDB демонстрируется высокая точность в segmentation. Наши результаты показывают, что FunKAN превосходит другие KAN-based backbones в image enhancement (PSNR, TV) и segmentation (IoU, F1). Эти результаты подтверждают что FunKAN обеспечивает высокую точность и интерпретируемость, что делает его привлекательным для clinical practice.
#### Значимость
FunKAN может применяться в медицинских приложениях, таких как breast cancer, gland detection, и polyp detection. Его преимущества заключаются в том, что он позволяет получить точные и интерпретируемые результаты, даже в условиях сложной анатомии и искажений. Это может привести к улучшению clinical outcomes и помочь в направлении будущих исследований в области explainable AI.
#### Выводы
Мы завершаем, что FunKAN является перспективным решением для задач обработки изображений в медицине. Наши результаты показывают его превосходство над другими методами в области enhancement и segmentation. Будущие исследования будут сосредоточены на расширении FunKAN для более сложных задач и улучшении его эффективности в реальном времени.
Annotation:
Medical image enhancement and segmentation are critical yet challenging tasks
in modern clinical practice, constrained by artifacts and complex anatomical
variations. Traditional deep learning approaches often rely on complex
architectures with limited interpretability. While Kolmogorov-Arnold networks
offer interpretable solutions, their reliance on flattened feature
representations fundamentally disrupts the intrinsic spatial structure of
imaging data. To address this issue we propose a Functi...