📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Likai Wang, Ruize Han, Xiangqun Zhang, Wei Feng

Многие существующие методы поиска автомобилей в видеоматериалах используют предварительную детекцию и хранение всех возможных объектов, затем применяют модели реидентификации, что является ресурсоемким и неэффективным. В этой работе предлагается CLIPVehicle — универсальный фреймворк, который объединяет детекцию и реидентификацию в единой модели. Работа основывается на двух ключевых модулях: двойной семантической региональной корреляции для тонкой дискриминации объектов с помощью VLMs (визуально-языковых моделей) и стратегии тренировки на основе многоуровневого учёта идентификации в терминах глобальной, экземплярной и функциональной информации. Также разработан новый бенчмарк для поиска автомобилей, включающий реальную выборку CityFlowVS и синтетические наборы SynVS-Day и SynVS-All. Исследования показали, что CLIPVehicle выдаёт лучшие результаты по сравнению с состоящими моделями в задачах реидентификации автомобилей и личности.
Annotation:
Vehicles, as one of the most common and significant objects in the real world, the researches on which using computer vision technologies have made remarkable progress, such as vehicle detection, vehicle re-identification, etc. To search an interested vehicle from the surveillance videos, existing methods first pre-detect and store all vehicle patches, and then apply vehicle re-identification models, which is resource-intensive and not very practical. In this work, we aim to achieve the joint de...
ID: 2508.04120v1 cs.CV
Авторы:

Maximilian Ulmer, Wout Boerdijk, Rudolph Triebel, Maximilian Durner

**Резюме** В статье представлена OC-DiT — новая типа модели диффузии, разработанная для объектно-центричного предсказания, примененной к задаче zero-shot instance segmentation. Авторы предлагают уникальный фреймворк, генерирующий маски инстансов с помощью кондиционирования диффузионного процесса на объектные шаблоны и изображенческие признаки внутри латентного пространства диффузионной модели. Это позволяет модели эффективно разделять объекты по изображению, используя визуальные описания и локализованные изображенческие признаки. Две варианта модели предложены: первая для генерации начальных предложений инстансов, вторая — для их рефинирования. Обучение проводилось на новой большой синтетической выборке с высококачественными трёхмерными моделями объектов. Модели показали лучший результат на нескольких сложных реальных наборах данных, не требуя переобучения на целевых данных. Анализ абляций подтвердил возможность диффузионных моделей для решения задач инстансной сегментации.
Annotation:
This paper presents OC-DiT, a novel class of diffusion models designed for object-centric prediction, and applies it to zero-shot instance segmentation. We propose a conditional latent diffusion framework that generates instance masks by conditioning the generative process on object templates and image features within the diffusion model's latent space. This allows our model to effectively disentangle object instances through the diffusion process, which is guided by visual object descriptors an...
ID: 2508.04122v1 cs.CV
Авторы:

Zheng Cheng, Wenri Wang, Guangyong Chen, Yakun Ju, Yihua Cheng, Zhisong Liu, Yanda Meng, Jintao Song

Задача улучшения качества увяданий изображений, сделанных под водой (UIE), стоит в устранении деградаций, вызванных пропусканием и рассеянием света. Основным подходом является использование механизмов многомерного извлечения признаков (MSFE), которые целью имеют улучшение реконструкции изображений с помощью слияния признаков разного разрешения. Тем не менее, наши исследования показывают, что высокое качество реконструкции изображений может быть достигнуто и с помощью одномерного извлечения признаков, что значительно уменьшает сложность. Для полного изучения потенциала одномерных признаков в задаче улучшения увяданий изображений, мы предлагаем новую архитектуру Single-Scale Decomposition Network (SSD-Net). Она вводит асимметричный механизм декомпозиции, разделяющий входное изображение на слой чистого сценарного сигнала и слой вмешательства среды. Архитектура SSD-Net объединяет локальные возможности извлечения признаков CNN с глобальным моделированием Transformer, используя два ключевых модуля: Parallel Feature Decomposition Block (PFDB) для декомпозиции признаков с использованием эффективной аттенции и адаптивного трансфортера, и Bidirectional Feature Communication Block (BFCB) для динамического взаимодействия между слоями и слияния признаков. Этот инновационный подход позволяет эффективно декомпозировать признаки, улучшая их декодерские возможности.
Annotation:
Underwater image enhancement (UIE) techniques aim to improve visual quality of images captured in aquatic environments by addressing degradation issues caused by light absorption and scattering effects, including color distortion, blurring, and low contrast. Current mainstream solutions predominantly employ multi-scale feature extraction (MSFE) mechanisms to enhance reconstruction quality through multi-resolution feature fusion. However, our extensive experiments demonstrate that high-quality im...
ID: 2508.04123v1 cs.CV, eess.IV
Авторы:

Matthias Bartolo, Konstantinos Makantasis, Dylan Seychell

Загрязнение мусором, особенно в природных ландшафтах, становится всё более актуальной проблемой в мире. Авторы предлагают новую методику для улучшения автоматизированного обнаружения мусора с помощью свёрточных нейронных сетей. Используется подход **Learning Using Privileged Information (LUPI)**, который впервые комбинирует привилегированные данные с техникой обучения с подкреплением. Данные привилегированные включают дополнительные информационные признаки, такие как области интереса (bounding boxes), которые могут улучшить точность обнаружения мелких предметов и предметов, частично скрытых другими объектами или землей. Эксперименты проводились на широко используемых датасетах SODA, BDW и UAVVaste. Метод достиг стабильных повышений точности обнаружения на всех используемых моделях, не прибегая к усложнению архитектуры и сохраняя высокую эффективность. Это доказательство того, что LUPI может быть эффективно применено в данной области, обеспечивая высокую точность и скорость распознавания.
Annotation:
As litter pollution continues to rise globally, developing automated tools capable of detecting litter effectively remains a significant challenge. This study presents a novel approach that combines, for the first time, privileged information with deep learning object detection to improve litter detection while maintaining model efficiency. We evaluate our method across five widely used object detection models, addressing challenges such as detecting small litter and objects partially obscured b...
ID: 2508.04124v1 cs.CV, cs.ET, cs.LG, cs.PF
Авторы:

Xun Lin, Xiaobao Guo, Taorui Wang, Yingjie Ma, Jiajian Huang, Jiayu Zhang, Junzhe Cao, Zitong Yu

Обманный анализ — критическая задача в прикладных реалиях, таких как безопасность, борьба с мошенничеством и проверка достоверности. Несмотря на прогрессы глубокого обучения в этой области, их эффективность часто зависит от качества и разнообразия данных. Большинство исследований фокусируются на однодоменных сценариях, не учитывая снижение качества детекции при перекрестных доменных переходах. Работа представляет SVC 2025 Multimodal Deception Detection Challenge — новую метрику для оценки кросс-доменной общеуниверсальности моделей в детекции обмана по аудио-визуальным данным. Участники должны были разработать модели, способные отображать затухающие сигналы обмана в многомодальных условиях. Использование текста, аудио и видео-данных позволяло развивать адаптацию и объяснимость моделей. Окончательно, 21 команда участвовала в соревновании, подтвердив значительную прогресс в развитии комплексных, универсальных моделей для обмана.
Annotation:
Deception detection is a critical task in real-world applications such as security screening, fraud prevention, and credibility assessment. While deep learning methods have shown promise in surpassing human-level performance, their effectiveness often depends on the availability of high-quality and diverse deception samples. Existing research predominantly focuses on single-domain scenarios, overlooking the significant performance degradation caused by domain shifts. To address this gap, we pres...
ID: 2508.04129v1 cs.CV
Авторы:

Lijuan Liu, Wenfa Li, Dongbo Zhang, Shuo Wang, Shaohui Jiao

**Резюме** Существуют многочисленные подходы к синтезу RGB-D видеопоследовательностей, но многие из них недостаточно учитывают взаимосвязь между RGB и depth, что приводит к неточностям в геометрическом анализе. IDC-Net (Image-Depth Consistency Network) — это новая архитектура, призванная решить эту проблему. Она предлагает унифицированную геометрически осведомленную модель, которая одновременно синтезирует RGB- и depth-кадры, учитывая их геометрическую консистентность. Для обучения данной модели разработан качественный датасет с метрическими RGB-D последовательностями и точными позициями камеры. Особенностью IDC-Net является использование геометрического transformer-блока, обеспечивающего тонкую регулировку камеры в генерируемых последовательностях. Эксперименты показали, что IDC-Net превосходит состояние техники по качеству изображений (14.9% за абсолютные значения) и геометрической консистентности. Данные последовательности могут быть использованы непосредственно в задачах 3D-реконструкции, что демонстрирует практическую полезность разработанного подхода.
Annotation:
We present IDC-Net (Image-Depth Consistency Network), a novel framework designed to generate RGB-D video sequences under explicit camera trajectory control. Unlike approaches that treat RGB and depth generation separately, IDC-Net jointly synthesizes both RGB images and corresponding depth maps within a unified geometry-aware diffusion model. The joint learning framework strengthens spatial and geometric alignment across frames, enabling more precise camera control in the generated sequences. To...
ID: 2508.04147v1 cs.CV
Авторы:

Yihua Shao, Xiaofeng Lin, Xinwei Long, Siyu Chen, Minxi Yan, Yang Liu, Ziyang Yan, Ao Ma, Hao Tang, Jingcai Guo

Многозадачная адаптация в предварительно обученных моделях Low-Rank Adaptation (LoRA) является ключевым фактором повышения их гибкости. Однако существующие методы фузирования LoRA часто сталкиваются с проблемами, такими как конфликты между весами и катастрофическая забытость доменов. Даже инкрементальное обучение, предназначенное для адаптации к нескольким задачам, способно сгенерировать универсальные модели, но не всегда обеспечивает достаточную общеучительность в сценариях с небольшим количеством примеров. Мы предлагаем In-Context Meta LoRA Fusion (ICM-Fusion), новую фреймворковую модель, которая объединяет мета-обучение с ин-контекстной адаптацией. Её основной инновацией является техника векторного арифметики задач, которая адаптивно корректирует проекции в мантии задач, устраняя конфликты весов. Таким образом, ICM-Fusion позволяет оптимизировать подходящую ориентацию для суперпозиции задач в пространстве весов. Затем, используя Fusion VAE (F-VAE), LoRA-модель может быть генерирована с многозадачной структурой. Наши эксперименты показали, что ICM-Fusion не только существенно уменьшает многозадачный лосс, но и демонстрирует улучшение по производительности в сценарии с небольшим количеством примеров.
Annotation:
Enabling multi-task adaptation in pre-trained Low-Rank Adaptation (LoRA) models is crucial for enhancing their generalization capabilities. Most existing pre-trained LoRA fusion methods decompose weight matrices, sharing similar parameters while merging divergent ones. However, this paradigm inevitably induces inter-weight conflicts and leads to catastrophic domain forgetting. While incremental learning enables adaptation to multiple tasks, it struggles to achieve generalization in few-shot scen...
ID: 2508.04153v1 cs.CV
Авторы:

Angela Locoro, Silvia Golia, Davide Falessi

Одной из основных проблем в измерении литературы данных визуализаций является недостаточность определения прогрессии сложности в конструктах измерения и тестах. Это может ограничить выразительность тестов в проектировании и повторном использовании. Для решения этой проблемы предлагается методология DRIVE-T (Discriminating and Representative Items for Validating Expressive Tests), которая ориентирована на построение и оценку задач для оценки литературы визуализаций данных. Методология включает в себя три шага: (1) меткивание задач-отдельных элементов в зависимости от визуализации данных, (2) оценку сложности этих задач независимыми оценщиками, (3) анализ результатов с использованием модели Many-Facet Rasch Measurement. Это позволяет выявить уровни сложности, основанные на различимости и представительности задач, и расположить их по уровням конструкта. Демонстрация DRIVE-T проводилась на банке задач, имитирующем сложность измерительного конструкта литературы визуализаций данных, основанный на семиотических понятиях. Результаты представляют собой промежуточный этап в формировании индивидуальных конструктов измерения в пост-дизайнной фазе.
Annotation:
The underspecification of progressive levels of difficulty in measurement constructs design and assessment tests for data visualization literacy may hinder the expressivity of measurements in both test design and test reuse. To mitigate this problem, this paper proposes DRIVE-T (Discriminating and Representative Items for Validating Expressive Tests), a methodology designed to drive the construction and evaluation of assessment items. Given a data vizualization, DRIVE-T supports the identificati...
ID: 2508.04160v1 cs.HC, cs.CV, K.3; K.3.2
Авторы:

Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min

Загрузка лиц в потоковых видеороликах часто страдает различными дефектами, влияя на качество видео. Известные методы восстановления видео недостаточно учитывают взаимосвязь между звуковыми и визуальными признаками, особенно в области горла и уст lip-reading. Данная работа предлагает General Audio-assisted Face Video Restoration Network (GAVN), решающий эту проблему с помощью темпорального и идентичностного дополнения. GAVN применяет низкорезольвентную модель для восстановления интерфреймовых признаков и высокорезольвентную модель с использованием аудиосигналов и знаков лица для улучшения детализации. Модель объединяет эти признаки для полного восстановления лиц в высококачественных видеороликах. Эксперименты показали, что GAVN превосходит современные методы в решении проблем, таких как сжатие, размытие и увеличение разрешения, демонстрируя его эффективность в области видеовосстановления.
Annotation:
Face videos accompanied by audio have become integral to our daily lives, while they often suffer from complex degradations. Most face video restoration methods neglect the intrinsic correlations between the visual and audio features, especially in mouth regions. A few audio-aided face video restoration methods have been proposed, but they only focus on compression artifact removal. In this paper, we propose a General Audio-assisted face Video restoration Network (GAVN) to address various types ...
ID: 2508.04161v1 cs.CV, cs.MM, cs.SD, eess.AS
Авторы:

Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh Mukherjee

Мемы, как важной формой онлайн-коммуникации, часто используются для распространения оскорбительного или вредоносного контента. Однако существуют значительные ограничения в разработке моделей модерации мемов, возникающие из-за недоступности данных и высокой стоимости их подготовки. Наша работа предлагает первый датасет, содержащий 6300 реальных мемов, тщательно аннотированных на два уровня: бинарная классификация (токсичный или нет) и детальная метки (хаминг, оскорбительный или опасный). Для улучшения контекста каждого мема, датасет также включает социально важные теги. Мы также предлагаем модуль генерации тегов, который создает социологически обоснованные метки, особенно полезные для мемов, не имеющих их внедренных. Экспериментальные результаты доказали, что использование этих тегов значительно повышает эффективность существующих систем модерации, обеспечивая новую, масштабируемую основу для решения проблемы видоизмененного языка в мультимодальных онлайн-средах.
Annotation:
The 2025 Global Risks Report identifies state-based armed conflict and societal polarisation among the most pressing global threats, with social media playing a central role in amplifying toxic discourse. Memes, as a widely used mode of online communication, often serve as vehicles for spreading harmful content. However, limitations in data accessibility and the high cost of dataset curation hinder the development of robust meme moderation systems. To address this challenge, in this work, we int...
ID: 2508.04166v1 cs.CV, cs.CL
Показано 11341 - 11350 из 11614 записей