📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation

2025-11-01

Авторы:

Wei Shang, Wanying Zhang, Shuhang Gu, Pengfei Zhu, Qinghua Hu, Dongwei Ren

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Arbitrary-scale video super-resolution (AVSR) aims to enhance the resolution of video frames, potentially at various scaling factors, which presents several challenges regarding spatial detail reproduction, temporal consistency, and computational complexity. In this paper, we propose a strong baseline BasicAVSR for AVSR by integrating four key components: 1) adaptive multi-scale frequency priors generated from image Laplacian pyramids, 2) a flow-guided propagation unit to aggregate spatiotempora...

ID: 2510.26149v1 cs.CV, I.4.3

arXiv PDF

📄 From Cheap to Pro: A Learning-based Adaptive Camera Parameter Network for Professional-Style Imaging

2025-10-25

Авторы:

Fuchen Li, Yansong Du, Wenbo Cheng, Xiaoxia Zhou, Sen Yin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Consumer-grade camera systems often struggle to maintain stable image quality under complex illumination conditions such as low light, high dynamic range, and backlighting, as well as spatial color temperature variation. These issues lead to underexposure, color casts, and tonal inconsistency, which degrade the performance of downstream vision tasks. To address this, we propose ACamera-Net, a lightweight and scene-adaptive camera parameter adjustment network that directly predicts optimal exposu...

ID: 2510.20550v1 cs.CV, I.4.3; I.4.8; I.2.10

arXiv PDF

📄 DistillMatch: Leveraging Knowledge Distillation from Vision Foundation Model for Multimodal Image Matching

2025-09-23

Авторы:

Meng Yang, Fan Fan, Zizhuo Li, Songchu Deng, Yong Ma, Jiayi Ma

#################### ## Контекст #################### Multimodal image matching является ключевым заданием в области кросс-модального визуального перцепции, слияния и анализа данных. Оно заключается в установлении пиксельных соответствий между изображениями различных модальностей, таких как RGB и энергетические изображения. Однако высокая разница в аппаратуре и внешних условиях затрудняет этот процесс. Ограниченность высококачественных данных для обучения искусственных нейронных сетей существенно снижает их точность и универсальность. Vision Foundation Model (VFM) становится решением этой проблемы: он обучен на огромных данных и производит общие, устойчивые к модальности функции, которые могут быть использованы в разных сценариях. Мы предлагаем DistillMatch — метод, использующий методы знаний видной модели VFM для повышения эффективности метода мультимодального матчинга. #################### ## Метод #################### DistillMatch использует знания от VFM (например, DINOv2 и DINOv3) для построения легковесной модели-ученика. Метод добавляет в функции выделение модальности, которое помогает сохранить специфические для модальности функции. В дополнение, мы разработали V2I-GAN, архитектуру, которая увеличивает данные с помощью перевода видимых изображений в изображения с подобным моментом. Метод DistillMatch стремится к более высокой точности и универсальности в кросс-модальном матчинге. #################### ## Результаты #################### Мы проводили эксперименты на нескольких стандартных наборах данных. DistillMatch показал существенное улучшение по сравнению с существующими методами в кросс-модальном матчинге. Он достиг более высокой точности и универсальности, особенно в сложных условиях, таких как различия в модальностях и малом количестве данных. Эти результаты подтверждают эффективность нашего подхода в адаптации к различным сценариям. #################### ## Значимость #################### DistillMatch может применяться в различных областях, таких как кросс-модальный анализ, синтез изображений и системы поиска объектов. Он предоставляет высокую точность и гибкость, что делает его полезным для сложных задач визуального перцепции. Благодаря универсальности и эффективности, DistillMatch может стать мощным инструментом для развития технологий визуального анализа. #################### ## Выводы #################### Мы предложили DistillMatch — метод мультимодального матчинга, который использует знания из VFM для повышения качества и универсальности. Мы также разработали V2I-GAN для увеличения данных. Эксперименты показали существенное улучшение по сравнению с другими методами. Будущие исследования будут уделять внимание улучшению производительности для более сложных задач.

Annotation:

Multimodal image matching seeks pixel-level correspondences between images of different modalities, crucial for cross-modal perception, fusion and analysis. However, the significant appearance differences between modalities make this task challenging. Due to the scarcity of high-quality annotated datasets, existing deep learning methods that extract modality-common features for matching perform poorly and lack adaptability to diverse scenarios. Vision Foundation Model (VFM), trained on large-sca...

ID: 2509.16017v1 cs.CV, I.4.3; I.5.2

arXiv PDF

📄 FunKAN: Functional Kolmogorov-Arnold Network for Medical Image Enhancement and Segmentation

2025-09-19

Авторы:

Maksim Penkin, Andrey Krylov

#### Контекст Medical image enhancement и segmentation являются критически важными задачами в современной клинической практике, но они ограничены искажениями и сложными анатомическими различиями. Традиционные методы deep learning часто основываются на сложных архитектурах с ограниченной интерпретируемостью. Хотя Kolmogorov-Arnold networks предлагают интерпретируемые решения, их использование склоняет функции в развернутой форме, что ломает пространственную структуру изображений. Мы предлагаем **Functional Kolmogorov-Arnold Network (FunKAN)** — новую функциональную нейросеть, специально разработанную для обработки изображений. Она генерически обобщает теорему Колмогорова-Арнольда на функциональные пространства и использует преобразования Фурье с базисом Гермита. #### Метод FunKAN основывается на каноническом Kolmogorov-Arnold network с функциональным представлением входных данных. Чтобы сохранить пространственную структуру, мы аппроксимируем входные данные с помощью Гермитовых функций и векторизуем их. Основная архитектура состоит из нейронных слоев, которые учитывают композицию внутренних функций. Мы оптимизируем FunKAN с помощью адаптивного метода градиентов и используем третичные функции для вычисления градиентов. Для segmentation, мы расширяем FunKAN в U-FunKAN, добавив encoder-decoder с skip-connections для улучшения передачи контекста. #### Результаты Мы проверили FunKAN на нескольких задачах обработки медицинских изображений, включая suppression Gibbs ringing в MRI и benchmarking на IXI dataset. На BUSI, GlaS и CVC-ClinicDB демонстрируется высокая точность в segmentation. Наши результаты показывают, что FunKAN превосходит другие KAN-based backbones в image enhancement (PSNR, TV) и segmentation (IoU, F1). Эти результаты подтверждают что FunKAN обеспечивает высокую точность и интерпретируемость, что делает его привлекательным для clinical practice. #### Значимость FunKAN может применяться в медицинских приложениях, таких как breast cancer, gland detection, и polyp detection. Его преимущества заключаются в том, что он позволяет получить точные и интерпретируемые результаты, даже в условиях сложной анатомии и искажений. Это может привести к улучшению clinical outcomes и помочь в направлении будущих исследований в области explainable AI. #### Выводы Мы завершаем, что FunKAN является перспективным решением для задач обработки изображений в медицине. Наши результаты показывают его превосходство над другими методами в области enhancement и segmentation. Будущие исследования будут сосредоточены на расширении FunKAN для более сложных задач и улучшении его эффективности в реальном времени.

Annotation:

Medical image enhancement and segmentation are critical yet challenging tasks in modern clinical practice, constrained by artifacts and complex anatomical variations. Traditional deep learning approaches often rely on complex architectures with limited interpretability. While Kolmogorov-Arnold networks offer interpretable solutions, their reliance on flattened feature representations fundamentally disrupts the intrinsic spatial structure of imaging data. To address this issue we propose a Functi...

ID: 2509.13508v1 cs.CV, I.4.3; I.4.6

arXiv PDF