📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Modeling Time-Lapse Trajectories to Characterize Cranberry Growth

2025-10-14

Авторы:

Ronan John, Anis Chihoub, Ryan Meegan, Gina Sidelli, Jeffery Neyhart, Peter Oudemans, Kristin Dana

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Change monitoring is an essential task for cranberry farming as it provides both breeders and growers with the ability to analyze growth, predict yield, and make treatment decisions. However, this task is often done manually, requiring significant time on the part of a cranberry grower or breeder. Deep learning based change monitoring holds promise, despite the caveat of hard-to-interpret high dimensional features and hand-annotations for fine-tuning. To address this gap, we introduce a method f...

ID: 2510.08901v1 cs.CV, I.4.7

arXiv PDF

📄 FLOWING: Implicit Neural Flows for Structure-Preserving Morphing

2025-10-14

Авторы:

Arthur Bizzi, Matias Grynberg, Vitor Matias, Daniel Perazzo, João Paulo Lima, Luiz Velho, Nuno Gonçalves, João Pereira, Guilherme Schardong, Tiago Novello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Morphing is a long-standing problem in vision and computer graphics, requiring a time-dependent warping for feature alignment and a blending for smooth interpolation. Recently, multilayer perceptrons (MLPs) have been explored as implicit neural representations (INRs) for modeling such deformations, due to their meshlessness and differentiability; however, extracting coherent and accurate morphings from standard MLPs typically relies on costly regularizations, which often lead to unstable trainin...

ID: 2510.09537v1 cs.CV, I.4.0

arXiv PDF

📄 A Semantics-Aware Hierarchical Self-Supervised Approach to Classification of Remote Sensing Images

2025-10-08

Авторы:

Giulio Weikmann, Gianmarco Perantoni, Lorenzo Bruzzone

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Deep learning has become increasingly important in remote sensing image classification due to its ability to extract semantic information from complex data. Classification tasks often include predefined label hierarchies that represent the semantic relationships among classes. However, these hierarchies are frequently overlooked, and most approaches focus only on fine-grained classification schemes. In this paper, we present a novel Semantics-Aware Hierarchical Consensus (SAHC) method for learni...

ID: 2510.04916v1 cs.CV, I.4.6; I.4.8; I.4.10

arXiv PDF

📄 Adapting SAM with Dynamic Similarity Graphs for Few-Shot Parameter-Efficient Small Dense Object Detection: A Case Study of Chickpea Pods in Field Conditions

2025-10-02

Авторы:

Xintong Jiang, Yixue Liu, Mohamed Debbagh, Yu Tian, Valerio Hoyos-Villegas, Viacheslav Adamchuk, Shangpeng Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Parameter-Efficient Fine-Tuning (PEFT) of foundation models for agricultural computer vision tasks remains challenging due to limited training data and complex field conditions. This study introduces a Dynamic Similarity-based Graph Adaptation (DSGA) module to adapt the Segment Anything Model (SAM) under extreme data constraints for precise foreground and instance segmentation of small dense objects in complex agricultural environments. Through dynamic similarity graph construction with a learna...

ID: 2509.25805v1 cs.CV, I.4.6; I.2.10; I.5.1; I.4.8

arXiv PDF

📄 A Multi-purpose Tracking Framework for Salmon Welfare Monitoring in Challenging Environments

2025-10-02

Авторы:

Espen Uri Høgstedt, Christian Schellewald, Annette Stahl, Rudolf Mester

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer Vision (CV)-based continuous, automated and precise salmon welfare monitoring is a key step toward reduced salmon mortality and improved salmon welfare in industrial aquaculture net pens. Available CV methods for determining welfare indicators focus on single indicators and rely on object detectors and trackers from other application areas to aid their welfare indicator calculation algorithm. This comes with a high resource demand for real-world applications, since each indicator must b...

ID: 2509.25969v1 cs.CV, I.4.8; I.4.9

arXiv PDF

📄 SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval

2025-10-02

Авторы:

Yuqi Xiao, Yingying Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Zero-shot Composed Image Retrieval (ZS-CIR) aims to retrieve a target image given a reference image and a relative text, without relying on costly triplet annotations. Existing CLIP-based methods face two core challenges: (1) union-based feature fusion indiscriminately aggregates all visual cues, carrying over irrelevant background details that dilute the intended modification, and (2) global cosine similarity from CLIP embeddings lacks the ability to resolve fine-grained semantic relations. To ...

ID: 2509.26012v1 cs.CV, I.4.9

arXiv PDF

📄 GPT-4 for Occlusion Order Recovery

2025-09-30

Авторы:

Kaziwa Saleh, Zhyar Rzgar K Rostam, Sándor Szénási, Zoltán Vámossy

#### Контекст Объектно-ориентированная обработка изображений требует точного понимания геометрических отношений между объектами, в том числе их порядок видимости (вложенность). Эта задача становится особенно сложной в условиях сложных и плотно взаимодействующих объектов, характерных для реального мира. Традиционные модели имеют трудности в точном определении взаимосвязей между объектами, что приводит к ошибкам в цепочках предсказаний. Модели становятся более ограниченными в своей точности и универсальности. Наша мотивация заключается в развитии более точных и универсальных моделей, которые могут выделить и интерпретировать эти отношения, особенно в сложных, нелинейных сценах. #### Метод Мы предлагаем использовать базовую модель GPT-4, тренированную на обширных данных, для оценки порядка видимости объектов на изображениях. Методом является предоставление входных изображений и сопутствующих данных в форме специально сконструированного запроса (промпта). GPT-4 анализирует изображение и выдает оценку порядка видимости в виде текстового ответа. Далее, эти текстовые данные преобразуются в матрицу видимости (или "окклюзионный матриц"), которая может быть использована для дальнейшей обработки в различных задачах, таких как построение глубинных карт или многоуровневый анализ сцены. #### Результаты Мы проводили эксперименты с двумя датасетами: COCOA и InstaOrder. Использовались различные метрики для оценки точности предсказаний. Результаты показали, что использование семантического контекста, визуальных указателей и коммонсенса позволяет GPT-4 получать более точные результаты по сравнению с базовыми методами, особенно в областях, где другие модели сталкиваются с трудностями. Модель также показала возможность решать задачи без тренировки на аннотированных данных (zero-shot learning), что делает ее универсальной и эффективной в различных условиях. #### Значимость Предложенная модель может иметь широкие применения в области компьютерного зрения, включая распознавание сцен, машинное зрение для динамических сред, а также в обобщенные задачи, требующие точного понимания взаимосвязей объектов. Ее основное преимущество заключается в том, что она может работать в zero-shot режиме, чтобы избегать проблем с нехваткой данных и делать ее более развитой в плане интеллектуального анализа. Эта модель также может повысить точность в других задачах, таких как сегментация изображений и обнаружение объектов. #### Выводы Мы доказали, что GPT-4 может быть эффективно использована для восстановления порядка видимости в сложных сценах. Наша под

Annotation:

Occlusion remains a significant challenge for current vision models to robustly interpret complex and dense real-world images and scenes. To address this limitation and to enable accurate prediction of the occlusion order relationship between objects, we propose leveraging the advanced capability of a pre-trained GPT-4 model to deduce the order. By providing a specifically designed prompt along with the input image, GPT-4 can analyze the image and generate order predictions. The response can the...

ID: 2509.22383v1 cs.CV, I.4.5

arXiv PDF

📄 DistillMatch: Leveraging Knowledge Distillation from Vision Foundation Model for Multimodal Image Matching

2025-09-23

Авторы:

Meng Yang, Fan Fan, Zizhuo Li, Songchu Deng, Yong Ma, Jiayi Ma

#################### ## Контекст #################### Multimodal image matching является ключевым заданием в области кросс-модального визуального перцепции, слияния и анализа данных. Оно заключается в установлении пиксельных соответствий между изображениями различных модальностей, таких как RGB и энергетические изображения. Однако высокая разница в аппаратуре и внешних условиях затрудняет этот процесс. Ограниченность высококачественных данных для обучения искусственных нейронных сетей существенно снижает их точность и универсальность. Vision Foundation Model (VFM) становится решением этой проблемы: он обучен на огромных данных и производит общие, устойчивые к модальности функции, которые могут быть использованы в разных сценариях. Мы предлагаем DistillMatch — метод, использующий методы знаний видной модели VFM для повышения эффективности метода мультимодального матчинга. #################### ## Метод #################### DistillMatch использует знания от VFM (например, DINOv2 и DINOv3) для построения легковесной модели-ученика. Метод добавляет в функции выделение модальности, которое помогает сохранить специфические для модальности функции. В дополнение, мы разработали V2I-GAN, архитектуру, которая увеличивает данные с помощью перевода видимых изображений в изображения с подобным моментом. Метод DistillMatch стремится к более высокой точности и универсальности в кросс-модальном матчинге. #################### ## Результаты #################### Мы проводили эксперименты на нескольких стандартных наборах данных. DistillMatch показал существенное улучшение по сравнению с существующими методами в кросс-модальном матчинге. Он достиг более высокой точности и универсальности, особенно в сложных условиях, таких как различия в модальностях и малом количестве данных. Эти результаты подтверждают эффективность нашего подхода в адаптации к различным сценариям. #################### ## Значимость #################### DistillMatch может применяться в различных областях, таких как кросс-модальный анализ, синтез изображений и системы поиска объектов. Он предоставляет высокую точность и гибкость, что делает его полезным для сложных задач визуального перцепции. Благодаря универсальности и эффективности, DistillMatch может стать мощным инструментом для развития технологий визуального анализа. #################### ## Выводы #################### Мы предложили DistillMatch — метод мультимодального матчинга, который использует знания из VFM для повышения качества и универсальности. Мы также разработали V2I-GAN для увеличения данных. Эксперименты показали существенное улучшение по сравнению с другими методами. Будущие исследования будут уделять внимание улучшению производительности для более сложных задач.

Annotation:

Multimodal image matching seeks pixel-level correspondences between images of different modalities, crucial for cross-modal perception, fusion and analysis. However, the significant appearance differences between modalities make this task challenging. Due to the scarcity of high-quality annotated datasets, existing deep learning methods that extract modality-common features for matching perform poorly and lack adaptability to diverse scenarios. Vision Foundation Model (VFM), trained on large-sca...

ID: 2509.16017v1 cs.CV, I.4.3; I.5.2

arXiv PDF

📄 FunKAN: Functional Kolmogorov-Arnold Network for Medical Image Enhancement and Segmentation

2025-09-19

Авторы:

Maksim Penkin, Andrey Krylov

#### Контекст Medical image enhancement и segmentation являются критически важными задачами в современной клинической практике, но они ограничены искажениями и сложными анатомическими различиями. Традиционные методы deep learning часто основываются на сложных архитектурах с ограниченной интерпретируемостью. Хотя Kolmogorov-Arnold networks предлагают интерпретируемые решения, их использование склоняет функции в развернутой форме, что ломает пространственную структуру изображений. Мы предлагаем **Functional Kolmogorov-Arnold Network (FunKAN)** — новую функциональную нейросеть, специально разработанную для обработки изображений. Она генерически обобщает теорему Колмогорова-Арнольда на функциональные пространства и использует преобразования Фурье с базисом Гермита. #### Метод FunKAN основывается на каноническом Kolmogorov-Arnold network с функциональным представлением входных данных. Чтобы сохранить пространственную структуру, мы аппроксимируем входные данные с помощью Гермитовых функций и векторизуем их. Основная архитектура состоит из нейронных слоев, которые учитывают композицию внутренних функций. Мы оптимизируем FunKAN с помощью адаптивного метода градиентов и используем третичные функции для вычисления градиентов. Для segmentation, мы расширяем FunKAN в U-FunKAN, добавив encoder-decoder с skip-connections для улучшения передачи контекста. #### Результаты Мы проверили FunKAN на нескольких задачах обработки медицинских изображений, включая suppression Gibbs ringing в MRI и benchmarking на IXI dataset. На BUSI, GlaS и CVC-ClinicDB демонстрируется высокая точность в segmentation. Наши результаты показывают, что FunKAN превосходит другие KAN-based backbones в image enhancement (PSNR, TV) и segmentation (IoU, F1). Эти результаты подтверждают что FunKAN обеспечивает высокую точность и интерпретируемость, что делает его привлекательным для clinical practice. #### Значимость FunKAN может применяться в медицинских приложениях, таких как breast cancer, gland detection, и polyp detection. Его преимущества заключаются в том, что он позволяет получить точные и интерпретируемые результаты, даже в условиях сложной анатомии и искажений. Это может привести к улучшению clinical outcomes и помочь в направлении будущих исследований в области explainable AI. #### Выводы Мы завершаем, что FunKAN является перспективным решением для задач обработки изображений в медицине. Наши результаты показывают его превосходство над другими методами в области enhancement и segmentation. Будущие исследования будут сосредоточены на расширении FunKAN для более сложных задач и улучшении его эффективности в реальном времени.

Annotation:

Medical image enhancement and segmentation are critical yet challenging tasks in modern clinical practice, constrained by artifacts and complex anatomical variations. Traditional deep learning approaches often rely on complex architectures with limited interpretability. While Kolmogorov-Arnold networks offer interpretable solutions, their reliance on flattened feature representations fundamentally disrupts the intrinsic spatial structure of imaging data. To address this issue we propose a Functi...

ID: 2509.13508v1 cs.CV, I.4.3; I.4.6

arXiv PDF

📄 Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction

2025-09-19

Авторы:

Yumin Li, Dylan Campbell

## Контекст Оценка относительного положения камеры в пространстве является ключевым вопросом в области 3D-реконструкции и локализации. Традиционные методы двух-видовой оценки положения камеры не учитывают метрические расстояния, ограничиваясь получением только масштаба перемещения камеры. Это препятствует решению задач, требующих точных метрических оценок, в случаях широких базисных расстояний, текстурно-дефицитных и отражательных поверхностей. Данная работа адресует эти сложности, предлагая новый подход, основанный на использовании подхода "вид из одной точки" (single-view reconstruction) в сочетании с геометрической оценкой положения. ## Метод Разработанная методика GARPS (Gaussian Alignment for Relative Pose Estimation) представляет собой новую архитектуру, которая использует метрическую модель глубины и методы реконструкции сцены на основе гауссовских моделей. Основной механизм состоит в том, чтобы воссоздать трёхмерную модель каждого кадра используя модель глубины и оценить относительное положение камеры через выравнивание этих трёхмерных моделей. Для того, чтобы повысить точность, алгоритм GARPS использует не только геометрическую информацию, но и консистентность цветовых признаков и семантических особенностей. Метод является тренировочно-свободным, что делает его универсальным и гибким. ## Результаты Исследования проводились на датасете Real-Estate10K, который представляет собой несколько тысяч сцен, включая различные условия съемки. Результаты показали, что GARPS превосходит общую эффективность и точность как классических, так и современных методов оценки относительного положения камеры. Особое внимание в тестах уделено обработке широких базисных расстояний и текстурно-дефицитных областей, где остальные методы часто страдают от погрешности. ## Значимость Разработанный подход имеет широкие перспективы применения в 3D-реконструкции, локализации и системах видеонаблюдения. Он отличается высокой точностью и универсальностью, поскольку не требует предварительного обучения и может обрабатывать даже трудные случаи, такие как отражательные и текстурно-дефицитные поверхности. Данный подход может стать основой для следующих исследований в области многовидовой геометрии и глубокого обучения. ## Выводы Результаты экспериментов подтверждают эффективность нового подхода GARPS в точной оценке относительных положений камер. Этот подход открывает новые горизонты для применения глубокого обучения в сложных сценах, где существуют ограничения по текстуре и базису. Будущими направлениями исследований могут стать улучшения реконструкци

Annotation:

Estimating metric relative camera pose from a pair of images is of great importance for 3D reconstruction and localisation. However, conventional two-view pose estimation methods are not metric, with camera translation known only up to a scale, and struggle with wide baselines and textureless or reflective surfaces. This paper introduces GARPS, a training-free framework that casts this problem as the direct alignment of two independently reconstructed 3D scenes. GARPS leverages a metric monocula...

ID: 2509.13652v1 cs.CV, I.4.8; I.4.5

arXiv PDF

Показано 11 - 20 из 37 записей