📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

2025-08-09

Авторы:

Hongyu Shen, Junfeng Ni, Yixin Chen, Weishuo Li, Mingtao Pei, Siyuan Huang

Метод Trace3D предлагает решение проблемы лифтинга 2D-сегментации в 3D в контексте Gaussian Splatting. Несогласованность 2D-масок между представлениями и шумные границы сегментации, вызванные недовольством семантических сведений, ограничивают эффективность существующих методов. Trace3D предлагает **Gaussian Instance Tracing (GIT)**, который использует взаимосвязь Gaussians в 3D для идентификации и корректировки несогласованностей в 2D-сегментации. Для повышения точности и разрешения границ, Trace3D вводит адаптивный динамический управление плотностью, который позволяет разделить и убрать неоднозначные Gaussians. Эксперименты показывают, что Trace3D выдает чистые 3D-ресурсы и сохраняет согласованную 3D-сегментацию в онлайн и оффлайн условиях. Это включает выполнение таких задач, как герархическая сегментация, выделение объектов и редактирование сцены.

Annotation:

We address the challenge of lifting 2D visual segmentation to 3D in Gaussian Splatting. Existing methods often suffer from inconsistent 2D masks across viewpoints and produce noisy segmentation boundaries as they neglect these semantic cues to refine the learned Gaussians. To overcome this, we introduce Gaussian Instance Tracing (GIT), which augments the standard Gaussian representation with an instance weight matrix across input views. Leveraging the inherent consistency of Gaussians in 3D, we ...

ID: 2508.03227v1 cs.CV

arXiv PDF

📄 Zero-shot Shape Classification of Nanoparticles in SEM Images using Vision Foundation Models

2025-08-09

Авторы:

Freida Barnatan, Emunah Goldstein, Einav Kalimian, Orchen Madar, Avi Huri, David Zitoun, Ya'akov Mandelbaum, Moshe Amitay

Научная статья предлагает новую подходящую широкому кругу пользователей методику для классификации формы наночастиц в системах современных микроскопических исследований. Организации v00d00 стремится к эффективной и доступной интеграции таких технологий в практическое применение. Используя два визовых основных модели — Segment Anything Model (SAM) для сегментации объектов и DINOv2 для выделения признаков — авторы предложили новую широкой широкой парадигму для классификации формы наночастиц в сканировании электронными микроскопами (SEM). Этот подход, обученный на метаданных статьи, позволяет достичь высокой точности классификации без необходимости тщательного тюнинга модели, что оптимизирует процесс подготовки данных. Оценка показала высокую эффективность метода в сравнении с существующими алгоритмами, такими как YOLOv11 и ChatGPT, на трех различных наборах данных. Это работа открывает путь к более доступным и эффективным системам анализа наночастиц в реальных индустриальных условиях.

Annotation:

Accurate and efficient characterization of nanoparticle morphology in Scanning Electron Microscopy (SEM) images is critical for ensuring product quality in nanomaterial synthesis and accelerating development. However, conventional deep learning methods for shape classification require extensive labeled datasets and computationally demanding training, limiting their accessibility to the typical nanoparticle practitioner in research and industrial settings. In this study, we introduce a zero-shot ...

ID: 2508.03235v1 cs.CV

arXiv PDF

📄 FFHQ-Makeup: Paired Synthetic Makeup Dataset with Facial Consistency Across Multiple Styles

2025-08-09

Авторы:

Xingchao Yang, Shiori Ueda, Yuantian Huang, Tomoya Akiyama, Takafumi Taketomi

**Резюме** В статье представляется FFHQ-Makeup — высококачественный синтетический датасет, содержащий пары лиц с и без макияжа, сохраняющих точность лица и выражения в разных стилях макияжа. Ранее существующие подходы, основанные на варпинге или текст-то-имаже, сталкивались с проблемами, такими как деформация геометрии лица или изменение идентичности и выражения. FFHQ-Makeup устраняет эти ограничения, используя усовершенствованный метод передачи макияжа, который эффективно отделяет идентичность от макияжа. Базируясь на FFHQ-датасете, авторы сформировали 90 тысяч пар из безмекияжных и макияжных лиц, привязанных к 18 тысяч идентичностей и 5 стилям макияжа каждой. Результаты подтверждают высокую точность и реалистичность полученных изображений. FFHQ-Makeup является первым специализированным датасетом, предлагая новый подход к решению проблемы сбора и создания парных данных для задач виртуального макияжа, анализа лиц и защиты частности.

Annotation:

Paired bare-makeup facial images are essential for a wide range of beauty-related tasks, such as virtual try-on, facial privacy protection, and facial aesthetics analysis. However, collecting high-quality paired makeup datasets remains a significant challenge. Real-world data acquisition is constrained by the difficulty of collecting large-scale paired images, while existing synthetic approaches often suffer from limited realism or inconsistencies between bare and makeup images. Current syntheti...

ID: 2508.03241v2 cs.CV

arXiv PDF

📄 MVTOP: Multi-View Transformer-based Object Pose-Estimation

2025-08-09

Авторы:

Lukas Ranftl, Felix Brendel, Bertram Drost, Carsten Steger

Одним из основных заданий в области зрелищного восприятия является определение позы объекта в пространстве, используя несколько видов. Традиционные подходы либо ограничены одним видом, либо полагаются на глубинные сети для решения задачи. Метод MVTOP, представленный авторами, предлагает новую трансформер-базированную модель для решения задачи позиционирования объектов с нескольких видов. Эта модель использует линии зрения, выходящие из камер, для создания глобальной структуры видов. Она может разрешать амбигуарные ситуации, которые невозможно решить с помощью одиночного вида или постобработки отдельных видов. Изученные синтетические данные, неразрешимые одним видом, позволяют демонстрировать эффективность MVTOP. Метод также превосходит другие подходы на датасете YCB-V и демонстрирует конкурентность в целом. Это первый успешный подход, сочетающий поливидность и трансформеры для точного решения задачи видового позиционирования.

Annotation:

We present MVTOP, a novel transformer-based method for multi-view rigid object pose estimation. Through an early fusion of the view-specific features, our method can resolve pose ambiguities that would be impossible to solve with a single view or with a post-processing of single-view poses. MVTOP models the multi-view geometry via lines of sight that emanate from the respective camera centers. While the method assumes the camera interior and relative orientations are known for a particular scene...

ID: 2508.03243v1 cs.CV

arXiv PDF

📄 Ultralight Polarity-Split Neuromorphic SNN for Event-Stream Super-Resolution

2025-08-09

Авторы:

Chuanzhi Xu, Haoxian Zhou, Langyi Chen, Yuk Ying Chung, Qiang Qu

Улучшение разрешения изображений в реальном времени для эвент-камер является ключевой проблемой в использовании этих устройств для тонкой перцепции. Мы предлагаем **Ultralight Polarity-Split Neuromorphic SNN**, метод обучения спикенгических нейронных сетей (SNN) для решения этой задачи. Наш подход основан на двух основных инновациях: **Dual-Forward Polarity-Split Event Encoding**, разделяющий положительные и отрицательные события на отдельные пути свертки, и **Learnable Spatio-temporal Polarity-aware Loss (LearnSTPLoss)**, который адаптивно сбалансированно учитывает временные, пространственные и поляритетные свойства изображений. Этот подход удачно объединяет низкую модельную сложность и высокую точность суперрезолюции. Наши результаты показывают, что сеть демонстрирует эффективность на различных датасетах, при этом значительно сокращая размер модели и время выполнения. Эта работа открывает путь к эффективному использованию эвент-камер в реальном времени.

Annotation:

Event cameras offer unparalleled advantages such as high temporal resolution, low latency, and high dynamic range. However, their limited spatial resolution poses challenges for fine-grained perception tasks. In this work, we propose an ultra-lightweight, stream-based event-to-event super-resolution method based on Spiking Neural Networks (SNNs), designed for real-time deployment on resource-constrained devices. To further reduce model size, we introduce a novel Dual-Forward Polarity-Split Event...

ID: 2508.03244v1 cs.CV, cs.LG

arXiv PDF

📄 Robust Single-Stage Fully Sparse 3D Object Detection via Detachable Latent Diffusion

2025-08-09

Авторы:

Wentao Qu, Guofeng Mei, Jing Wang, Yujiao Wu, Xiaoshui Huang, Liang Xiao

Задача 3D-обнаружения объектов чрезвычайно важна в многих приложениях, но существующие методы часто страдают от низкой эффективности и грубости в репрезентации сцены. В статье предлагается RSDNet — модель, основанная на Denoising Diffusion Probabilistic Models (DDPMs), но с многоуровневым подходом к нозе и денойзингу. Она использует легковесные денойзинговые сети для изучения сцены в локальных функциональных пространствах, что позволяет ей эффективно оценивать распределения в различных уровнях помех. Благодаря инновационной формулировке DDPM-механизмов, RSDNet может строить многотиповые и многоуровневые шумы и признаки, улучшая точность и устойчивость. Добавленная поддержка понимания границ и форм объектов устраняет проблему «теряемого центрального признака» в спарсе. Интеллектуальное дизайн детачируемого денойзингового кадра позволяет RSDNet работать в единоразовом режиме на прямой сцене, что делает её быстрее и эффективнее. Эксперименты показали, что RSDNet превосходит существующие методы, достигая новых результатов в 3D-обнаружении.

Annotation:

Denoising Diffusion Probabilistic Models (DDPMs) have shown success in robust 3D object detection tasks. Existing methods often rely on the score matching from 3D boxes or pre-trained diffusion priors. However, they typically require multi-step iterations in inference, which limits efficiency. To address this, we propose a \textbf{R}obust single-stage fully \textbf{S}parse 3D object \textbf{D}etection \textbf{Net}work with a Detachable Latent Framework (DLF) of DDPMs, named RSDNet. Specifically,...

ID: 2508.03252v1 cs.CV

arXiv PDF

📄 Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation

2025-08-09

Авторы:

Gang Dai, Yifan Zhang, Yutao Qin, Qiangya Guo, Shuangping Huang, Shuicheng Yan

Одной из основных задач обработки рукописного текста является генерация текстовых строк, которая требует учета не только отдельных слов, но и их взаимоотношений, включая горизонтальное выравнивание и вертикальное расстояние. Несмотря на это, большинство существующих подходов сосредоточены на изолированных словах. В статье предлагается DiffBrush — новая диффузионная модель, решающая эту проблему. DiffBrush использует два ключевых подхода: (1) **content-decoupled style learning**, разделяющий стиль и содержание с помощью маскирования по столбцам и строкам, и (2) **multi-scale content learning**, обеспечивающий локальную точность и глобальную гармонию текста. Эксперименты показали, что DiffBrush применимо для качественной генерации текстовых строк, выдавая результаты с высоким уровнем стилистической импровизации и точности содержания. Этот подход открывает новые возможности в области генерации рукописного текста. Доступен исходный код: https://github.com/dailenson/DiffBrush.

Annotation:

Existing handwritten text generation methods primarily focus on isolated words. However, realistic handwritten text demands attention not only to individual words but also to the relationships between them, such as vertical alignment and horizontal spacing. Therefore, generating entire text lines emerges as a more promising and comprehensive task. However, this task poses significant challenges, including the accurate modeling of complex style patterns encompassing both intra- and inter-word rel...

ID: 2508.03256v1 cs.CV

arXiv PDF

📄 EgoPrompt: Prompt Learning for Egocentric Action Recognition

2025-08-09

Авторы:

Huaihai Lyu, Chaofan Chen, Yuheng Ji, Changsheng Xu

**Резюме** В области egocentric action recognition возникает необходимость эффективно описывать и распознавать действия, выполняемые с первого лица. Несмотря на прогресс, существующие подходы обычно рассматривают поведение (verb) и объект, на котором оно выполняется (noun), как независимые классификационные задачи, что приводит к недостаточной генерализации и сложностям в интеграции семантических связей. Мы предлагаем EgoPrompt — прометочный подход, основанный на стратегии тренировки для эффективного представления двух компонентов действия. Наша модель использует Unified Prompt Pool для синтеза информативных представлений, а также вводит Diverse Pool Criteria для обеспечения вариативности и достоверности представлений. Эксперименты на Ego4D, EPIC-Kitchens и EGTEA показали, что EgoPrompt превосходит состояние литературы по всем основным метрикам, демонстрируя улучшение во внутри-, меж- и базово-новом кросс-датасетной генерализации.

Annotation:

Driven by the increasing demand for applications in augmented and virtual reality, egocentric action recognition has emerged as a prominent research area. It is typically divided into two subtasks: recognizing the performed behavior (i.e., verb component) and identifying the objects being acted upon (i.e., noun component) from the first-person perspective. However, most existing approaches treat these two components as independent classification tasks, focusing on extracting component-specific k...

ID: 2508.03266v2 cs.CV

arXiv PDF

📄 Efficient Multi-Slide Visual-Language Feature Fusion for Placental Disease Classification

2025-08-09

Авторы:

Hang Guo, Qing Zhang, Zixuan Gao, Siyuan Yang, Shulin Peng, Xiang Tao, Ting Yu, Yan Wang, Qingli Li

Точное предсказание заболеваний плаценты с помощью целых слайдов изображений (WSIs) является критически важной задачей для предотвращения серьезных материнских и плодами последствий. Однако анализ таких изображений представляет собой вычислительные трудности из-за огромного объема данных. На сегодняшний день существующие способы классификации WSI сталкиваются с двумя основными проблемами: неэффективные стратегии выбора патчей, которые либо снижают точность, либо не позволяют существенно уменьшить вычислительные затраты, и утрата глобального контекста гистологической картины в результате работы на уровне патчей. Мы предлагаем EmmPD — эффективный мультимодальный подход для диагностики заболеваний плаценты на пациентском уровне. Наша модель включает модуль двухэтапного выбора патчей, который объединяет параметр-свободные и обучаемые стратегии сжатия, обеспечивая оптимальный баланс между вычислительной эффективностью и сохранением ключевых признаков. Более того, мы разработали модуль мультимодальной фускии, использующий адаптивное графовое обучение для улучшения патологических признаков и включающий текстовые медицинские отчеты для расширения контекста. Эксперименты показали, что EmmPD достигает лучших результатов по сравнению с другими методами на нескольких наборах данных.

Annotation:

Accurate prediction of placental diseases via whole slide images (WSIs) is critical for preventing severe maternal and fetal complications. However, WSI analysis presents significant computational challenges due to the massive data volume. Existing WSI classification methods encounter critical limitations: (1) inadequate patch selection strategies that either compromise performance or fail to sufficiently reduce computational demands, and (2) the loss of global histological context resulting fro...

ID: 2508.03277v1 cs.CV

arXiv PDF

📄 Investigation on deep learning-based galaxy image translation models

2025-08-09

Авторы:

Hengxin Ruan, Qiufan Lin, Shupei Chen, Yang Wang, Wei Zhang

**Резюме** Обработка изображений галактик через глубокие нейросетевые модели является ключевым элементом в астрофизике и космологии. Несмотря на развитие генеративных моделей для перевода изображений галактик, большинство исследований ограничиваются пиксельными и морфологическими характеристиками, при этом недостаточно уделяется внимания сохранению высокоординальной физической информации, такой как спектроскопический краснодвижевый зазубр. В данном исследовании проверена эффективность генеративных моделей в сохранении такой информации, одновременно с пиксельными и морфологическими статистиками. Использовались модели Swin Transformer, SRGAN, каспсульная сеть и модель размывания, а также данные из SDSS и CFHTLS. Оказалось, что модели демонстрируют различные уровни несостоятельности в сохранении краснодвижевой информации, даже если глобальные структуры и морфологические статистики могут быть приблизительно воспроизведены. Особенно заметны неточности в переводе кросс-бандных максимумов потока, что связано с многим-к-многим природой моделирования. Тем не менее, даже недостаточно точно переведенные изображения могут содержать значительные данные и быть полезными для задач, где высокая точность изображений не является критичной. Результаты работы могут способствовать развитию моделей для галактического перевода изображений с учетом физических свойств.

Annotation:

Galaxy image translation is an important application in galaxy physics and cosmology. With deep learning-based generative models, image translation has been performed for image generation, data quality enhancement, information extraction, and generalized for other tasks such as deblending and anomaly detection. However, most endeavors on image translation primarily focus on the pixel-level and morphology-level statistics of galaxy images. There is a lack of discussion on the preservation of comp...

ID: 2508.03291v1 astro-ph.IM, astro-ph.GA, cs.CV

arXiv PDF

1
2
1125
1126
1127
1128
1129
1163
1164

Показано 11261 - 11270 из 11631 записей