📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Shenglun Chen, Xinzhu Ma, Hong Zhang, Haojie Li, Zhihui Wang

Одной из основных задач компьютерного зрения является depth completion — восстановление точного пространственного разрешения данных по глубине из скудных набросков. Эта задача важна для обеспечения реалистичного глубинного восприятия в системах автоматизированного видения. Традиционные подходы, опирающиеся на тщательно подготовленные данные, чувствительны к изменению условий и работают плохо в out-of-distribution (OOD) сценариях. В данной работе предлагается новый подход, основанный на depth foundation model. Он позволяет извлекать структурные и семантические признаки из RGB-изображений, чтобы указательно преобразовывать скудные данные глубины в пространстве 3D и 2D с сохранением геометрической структуры и локального согласования. Для точного восстановления интересных объектов вводится learnable correction module. Модель протестирована на NYUv2 и KITTI, а также на 16 других датасетах. Она показала значительное улучшение в OOD-сценариях, превосходя аналогичные системы. Таким образом, предложенный подход представляет собой прорыв в области depth completion с OOD-детерминированностью и высокой точностью.
Annotation:
Depth completion is a pivotal challenge in computer vision, aiming at reconstructing the dense depth map from a sparse one, typically with a paired RGB image. Existing learning based models rely on carefully prepared but limited data, leading to significant performance degradation in out-of-distribution (OOD) scenarios. Recent foundation models have demonstrated exceptional robustness in monocular depth estimation through large-scale training, and using such models to enhance the robustness of d...
ID: 2508.04984v1 cs.CV
Авторы:

Xinyao Li, Jingjing Li, Zhekai Du, Lei Zhu, Heng Tao Shen

**Резюме** Unsupervised domain adaptation (UDA) позволяет моделям, обученным на основе меток, работать с новыми неотмеченными доменами. Недавние успехи видио-лингвистических моделей (VLMs) в zero-shot задачах показывают, что семантическая информация может уменьшить доменные различия. Однако существуют внутренние модальностных различий, известных как modality gap. Мы выявили, что прямая UDA сталкивается с этим проблемой, передавая только модально-независимый контекст, что приводит к оптимальным результатам. Для решения этой проблемы мы предложили фреймворк Unified Modality Separation, который разделяет в VLMs модально-специальные и модально-независимые компоненты. Также, в тесте применяются адаптивные взвеши, чтобы объединить различные модальные компоненты. Мы предложили метрику modality discrepancy для классификации примеров по модальностным характеристикам. Эта новая модель демонстрирует до 9% выигрыша в производительности, при этом расходы на вычисления сокращаются в 9 раз. Эксперименты подтверждают эффективность наших подходов на различных датасетах и адаптационных условиях.
Annotation:
Unsupervised domain adaptation (UDA) enables models trained on a labeled source domain to handle new unlabeled domains. Recently, pre-trained vision-language models (VLMs) have demonstrated promising zero-shot performance by leveraging semantic information to facilitate target tasks. By aligning vision and text embeddings, VLMs have shown notable success in bridging domain gaps. However, inherent differences naturally exist between modalities, which is known as modality gap. Our findings reveal ...
ID: 2508.04987v1 cs.CV
Авторы:

Yue Li, Weifan Wang, Tai Sing Lee

Недавние нейрофизиологические исследования показали, что верхние слои визуального коры быстро адаптируются к глобальному контексту изображений, что проявляется в спаривании представлений и снижении активности при восприятии знакомых контекстов. Этот эффект связан с рекуррентными взаимодействиями в нейронных сетях, в частности с использованием "медленных" весов для формирования нелинейных преобразований манифолтов. В данном исследовании использована Vision Transformer-based autoencoder для исследования процесса быстрого обучения глобального контекста в видеосетях. Мы предлагаем внедрение "быстрых" весов с помощью Low-Rank Adaptation (LoRA) для моделирования эффекта скорости в сетях с аутоэнкодером. Наши результаты показали, что (1) ViT-аутоэнкодер моделирует манифолтовое преобразование, аналогичное моделированию привычности в собственных сетях, (2) привычное обучение способствует выравниванию латентных представлений слоёв с глобальной информацией, (3) привычное обучение расширяет область внимания в сети, (4) LoRA-веса повышают эффективность этого процесса. Эти результаты выдвигают гибридную архитектуру весов как модель для изучения глобального контекста в визуальных сетях.
Annotation:
Recent neurophysiological studies have revealed that the early visual cortex can rapidly learn global image context, as evidenced by a sparsification of population responses and a reduction in mean activity when exposed to familiar versus novel image contexts. This phenomenon has been attributed primarily to local recurrent interactions, rather than changes in feedforward or feedback pathways, supported by both empirical findings and circuit-level modeling. Recurrent neural circuits capable of s...
ID: 2508.04988v1 cs.CV
Авторы:

Rui Zhi, Zhen Yang, Haiyang Zhang

**Резюме** Person re-identification (Re-ID) — задача сопоставления изображений персон из различных камер. Occluded Re-ID специализируется на сценариях, когда часть тела персона достаточно закрыта. Обычное использование предварительно обученных vision-language моделей в таких случаях сталкивается с проблемой фокусировки только на глобальных семантических признаках, что снижает точность распознавания при недостаточной или ограниченной видимости. Мы предлагаем Attribute-Guide ReID (AG-ReID) — новую модель, которая использует существующие предварительно обученные модели для эффективного извлечения тонких атрибутов без дополнительных данных или анотирования. Метод AG-ReID работает в двух этапах: генерирует псевдо-метки для атрибутов, а затем использует двухуровневую стратегию с направлением на взвешенное использование глобальных и тонких признаков. Мы проверили AG-ReID на нескольких популярных Re-ID датасетах, показав ее выигрыш в обработке скрытых частей тела и небольших признаков, с одновременным сохранением высокой эффективности в остальных сценариях.
Annotation:
Person re-identification (Re-ID) aims to match person images across different camera views, with occluded Re-ID addressing scenarios where pedestrians are partially visible. While pre-trained vision-language models have shown effectiveness in Re-ID tasks, they face significant challenges in occluded scenarios by focusing on holistic image semantics while neglecting fine-grained attribute information. This limitation becomes particularly evident when dealing with partially occluded pedestrians or...
ID: 2508.04998v1 cs.CV
Авторы:

Shivani Mall, Joao F. Henriques

**Резюме** В статье предлагается метод CRAM (Continually Refreshed Amodal Memory) для решения проблемы внедрения нейронных сетей в среды с непрерывными потоками видеоданных. Одной из основных проблем в этой области является нехватка памяти для хранения больших объемов видеоданных, особенно при использовании методов ребуферизации. Авторы предлагают хранить не полноценные видео, а их компьютерно-визуальные коды (embeddings), что позволяет значительно снизить памятные требования. Однако проблема заключается в том, что обучение компрессора видео в режиме непрерывного обучения подвержено катастрофическому забыванию, что они решают путем обновления компрессора с помощью заархивированных версий старой модели. Разработанная схема была протестирована на больших наборах данных EpicKitchens-100 и Kinetics-700, где авторы доказали существенное превосходство CRAM по сравнению с предыдущими подходами, особенно при ограничениях на память.
Annotation:
Continual learning (CL) promises to allow neural networks to learn from continuous streams of inputs, instead of IID (independent and identically distributed) sampling, which requires random access to a full dataset. This would allow for much smaller storage requirements and self-sufficiency of deployed systems that cope with natural distribution shifts, similarly to biological learning. We focus on video CL employing a rehearsal-based approach, which reinforces past samples from a memory buffer...
ID: 2508.05001v1 cs.CV, cs.LG, cs.PF
Авторы:

Xusheng Liang, Lihua Zhou, Nianxin Li, Miao Xu, Ziyang Song, Dong Yi, Jinlin Wu, Hongbin Liu, Jiebo Luo, Zhen Lei

**Резюме** В задачах медицинской интерпретации изображений систем на основе видения и языка (Vision-Language Models, VLMs), таких как CLIP, часто сталкиваются с проблемой низкой общеуниверсальности в силу высокой вариабельности медицинских данных. Эти данные подвержены доменным переносовым сдвигам из-за различий в оборудовании, процедурах и режимах изображения. Для устранения этой проблемы предложено развитие фреймворка Multimodal Causal-Driven Representation Learning (MCDRL), который объединяет подход к рассуждению с принципами VLMs. MCDRL включает два этапа: 1) идентификацию кандидатских областей лезионных заболеваний с помощью CLIP и формирования словаря конфундеров с помощью текстовых запросов, а 2) использования казуальной модификации сети для исключения влияния конфундеров, сохранив ключевую анатомическую информацию. Эксперименты показали, что MCDRL превосходит конкурентные методы по точности и генерализуемости, делая его эффективным решением для улучшения общеуниверсальной сегментации в области медицинского видения.
Annotation:
Vision-Language Models (VLMs), such as CLIP, have demonstrated remarkable zero-shot capabilities in various computer vision tasks. However, their application to medical imaging remains challenging due to the high variability and complexity of medical data. Specifically, medical images often exhibit significant domain shifts caused by various confounders, including equipment differences, procedure artifacts, and imaging modes, which can lead to poor generalization when models are applied to unsee...
ID: 2508.05008v1 cs.CV
Авторы:

Shushi Wang, Chunyi Li, Zicheng Zhang, Han Zhou, Wei Dong, Jun Chen, Guangtao Zhai, Xiaohong Liu

Улучшение изображений с помощью искусственного интеллекта (AI) стало популярным в различных визуальных приложениях, значительно повышая качество пользовательских контентов (UGC). Однако отсутствие специализированных моделей для оценки качества в этой области ограничивает развитие и улучшение алгоритмов. Для заполнения этой нишы, авторы представляют AU-IQA — бенчмарк-датасет, состоящий из 4800 изображений, полученных при помощи трех типов усовершенствования: суперрезолюции, улучшения условий слабого освещения и шумоподавления. Этот датасет использовали для оценки различных моделей оценки качества, включая традиционные IQA-методы и новые многомодальные модели. Результаты показали, что существующие модели оценки качества неэффективны при оценке AI-UGC, требуясь более гибких и специализированных подходов. Этот ресурс станет полезным для развития новых моделей и улучшения пользовательского опыта с AI-UGC.
Annotation:
AI-based image enhancement techniques have been widely adopted in various visual applications, significantly improving the perceptual quality of user-generated content (UGC). However, the lack of specialized quality assessment models has become a significant limiting factor in this field, limiting user experience and hindering the advancement of enhancement methods. While perceptual quality assessment methods have shown strong performance on UGC and AIGC individually, their effectiveness on AI-e...
ID: 2508.05016v1 cs.CV, eess.IV
Авторы:

Md Redwanul Haque, Manzur Murshed, Manoranjan Paul, Tsz-Kwan Lee

**Резюме** В последнее время развитие генерирующих моделей искусственного интеллекта (GenAI) стало важным вызывать новые подходы для оценки качества изображений, которые будут учитывать не только человеческое восприятие, но и геометрическую структуру сцены (Scene Composition Structure, SCS). Эта структура определяет относительные положения, размеры и направления объектов в сцене. Однако существующие метрики качества изображений часто неэффективны в оценке SCS, так как либо слишком чувствительны к мелким изменениям в образом (пиксельные подходы), либо ориентированы на аспекты человеческого восприятия (перцепционные метрики). Мы предлагаем новую метрику — SCS Similarity Index Measure (SCSSIM), которая аналитически оценивает SCS, используя статистические измерения, основанные на хирархичном разбиении изображения на кубические сегменты. SCSSIM проверена на экспериментах, показав высокую сохранность от неизмененных SCS и четкую отрицательную монотонность при изменении SCS. Эта метрика является значительным дополнением к существующим методам для улучшения и оценки GenAI-моделей, обеспечивая надежные способы оценки целостности сцены.
Annotation:
The rapid advancement of generative AI models necessitates novel methods for evaluating image quality that extend beyond human perception. A critical concern for these models is the preservation of an image's underlying Scene Composition Structure (SCS), which defines the geometric relationships among objects and the background, their relative positions, sizes, orientations, etc. Maintaining SCS integrity is paramount for ensuring faithful and structurally accurate GenAI outputs. Traditional ima...
ID: 2508.05037v1 cs.CV, cs.IT, math.IT
Авторы:

Yiyang Su, Yunping Shi, Feng Liu, Xiaoming Liu

В статье предлагается новый подход к видео-основной идентификации лиц (Video-based Person ReID), названный HAMoBE (Hierarchical and Adaptive Mixture of Biometric Experts). Этот подход решает проблему неэффективного использования дискриминативных признаков в существующих системах, которые недостаточно адаптируются к различным сценариям. HAMoBE основывается на многоуровневой архитектуре, которая эмулирует человеческий перцептивный механизм, адаптивно комбинируя признаки вида, статического тела и динамической гаты. Используя предварительно обученную модель CLIP, HAMoBE извлекает и анализирует различные уровни признаков. Для динамического регулирования вклада каждого эксперта в матчинг решающая роль играет новая сеть двух входов для гатов. Эксперименты на бенчмарке MEVID показали, что HAMoBE улучшает Rank-1 accuracy на 13%, демонстрируя свою эффективность и универсальность в различных условиях.
Annotation:
Recently, research interest in person re-identification (ReID) has increasingly focused on video-based scenarios, which are essential for robust surveillance and security in varied and dynamic environments. However, existing video-based ReID methods often overlook the necessity of identifying and selecting the most discriminative features from both videos in a query-gallery pair for effective matching. To address this issue, we propose a novel Hierarchical and Adaptive Mixture of Biometric Exper...
ID: 2508.05038v1 cs.CV
Авторы:

Parth Thakkar, Ankush Agarwal, Prasad Kasu, Pulkit Bansal, Chaitanya Devaguptapu

**Резюме** В статье представлена проблема обнаружения тонких деталей в документах сложной структуры, которую сложно решить с помощью современных Multi-Modal Large Language Models (MLLMs). Эти модели проявляют слабости при работе с задачами, требующими высокой точности, например, поиска конкретной информации в документах, таких как меню, газеты или лекционные материалы. Для решения этой проблемы авторы представляют NiM, новый бенчмарк, состоящий из реальных документов, и предлагают Spot-IT — метод, улучшающий поиск тонких деталей. Spot-IT использует интеллектуальный выбор патчей и гибридную атенцию (так называемую Gaussian Attention), подражающую природному поведению человека при обнаружении деталей. Эксперименты показали, что Spot-IT превосходит существующие подходы, особенно в случаях, когда требуется высокая точность при работе с сложными структурами документов. Результаты подтверждают возможности и ограничения MLLMs в области тонких деталей.
Annotation:
While Multi-modal Large Language Models (MLLMs) have shown impressive capabilities in document understanding tasks, their ability to locate and reason about fine-grained details within complex documents remains understudied. Consider searching a restaurant menu for a specific nutritional detail or identifying a disclaimer in a lengthy newspaper article tasks that demand careful attention to small but significant details within a broader narrative, akin to Finding Needles in Images (NiM). To addr...
ID: 2508.05053v1 cs.CV
Показано 33531 - 33540 из 34123 записей