📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MonoCloth: Reconstruction and Animation of Cloth-Decoupled Human Avatars from Monocular Videos

2025-08-09

Авторы:

Daisheng Jin, Ying He

Реалистичная реконструкция 3D-аватаров из монокулярных видео представляет собой сложную задачу, ограниченную недостатком геометрической информации и сложной неструктурированной динамикой. В статье предлагается MonoCloth — метод, который реализует реконструкцию и анимацию одетого человека с использованием монокулярных видео. Для улучшения результатов, авторы предлагают декомпозицию тела на части: тело, лицо, руки и одежда. Это помогает учесть различия в сложности реконструкции и деформации для каждой части. Особое внимание уделяется анализу детальной геометрии лица и рук, а для одежды — новому модулю симуляции одежды, использующему временные и геометрические сигналы. Эксперименты показали, что MonoCloth выдает более точные и реалистичные результаты по сравнению с другими методами. Благодаря декомпозиционному подходу, MonoCloth также поддерживает задачи переодевания, увеличивая его практическую значимость в различных задачах глубокого обучения.

Annotation:

Reconstructing realistic 3D human avatars from monocular videos is a challenging task due to the limited geometric information and complex non-rigid motion involved. We present MonoCloth, a new method for reconstructing and animating clothed human avatars from monocular videos. To overcome the limitations of monocular input, we introduce a part-based decomposition strategy that separates the avatar into body, face, hands, and clothing. This design reflects the varying levels of reconstruction di...

ID: 2508.04505v1 cs.CV

arXiv PDF

📄 Surf3R: Rapid Surface Reconstruction from Sparse RGB Views in Seconds

2025-08-09

Авторы:

Haodong Zhu, Changbai Li, Yangyang Ren, Zichao Feng, Xuhui Liu, Hanlin Chen, Xiantong Zhen, Baochang Zhang

Реконструкция 3D-сцен из нескольких видов (многовидовая реконструкция) требует точного расчета калибровки и позиционирования камеры, что затрудняет ее применение в практических задачах. Мы предлагаем Surf3R — метод, который реконструирует 3D-поверхности из нескольких спарсевых видов без необходимости точного расчета камеры. Модель работает в единой сети и использует несколько спарсевых видов для взаимодействия и улучшения реконструкции. Один из ключевых моментов — введение D-Normal regularizer, который оптимизирует геометрические параметры поверхности с помощью 3D-представления нормалей. Это позволяет повысить точность и постоянство реконструкции. На двух известных датасетах (ScanNet++ и Replica) метод показал результаты, значительно превосходящие современные подходы по метрикам качества и эффективности. Таким образом, Surf3R представляет собой эффективное и оптимизированное решение для реконструкции 3D-поверхностей из нескольких видов.

Annotation:

Current multi-view 3D reconstruction methods rely on accurate camera calibration and pose estimation, requiring complex and time-intensive pre-processing that hinders their practical deployment. To address this challenge, we introduce Surf3R, an end-to-end feedforward approach that reconstructs 3D surfaces from sparse views without estimating camera poses and completes an entire scene in under 10 seconds. Our method employs a multi-branch and multi-view decoding architecture in which multiple re...

ID: 2508.04508v1 cs.GR, cs.CV

arXiv PDF

📄 Skeleton Motion Words for Unsupervised Skeleton-Based Temporal Action Segmentation

2025-08-09

Авторы:

Uzay Gökay, Federico Spurio, Dominik R. Bach, Juergen Gall

Ученые разработали метод для неучитывающего руководства (unsupervised) сегментации временных действий на основе скелетонных последовательностей. Несмотря на важность и реальность применения таких последовательностей в реальных условиях, существующие учитывающие руководство (supervised) методы требуют дорогостоящих аннотированных данных, что ограничивает их применение. Предложенный подход основывается на последовательности-к-последовательности (sequence-to-sequence) временном автоенкодере, который позволяет дискретизировать последовательности ключевых движений (skeleton motion words). Эти слова используются для выявления семантически значимых кластеров действий. Метод был протестирован на трех популярных скелетонных датасетах: HuGaDB, LARa и BABEL. Результаты показали, что предложенный метод превосходит нынешние состояние технологий (state-of-the-art) в неучитывающем руководстве сегментации временных действий. Это решение значительно повышает эффективность и доступность анализа скелетонных последовательностей в неучитывающих руководства режимах.

Annotation:

Current state-of-the-art methods for skeleton-based temporal action segmentation are predominantly supervised and require annotated data, which is expensive to collect. In contrast, existing unsupervised temporal action segmentation methods have focused primarily on video data, while skeleton sequences remain underexplored, despite their relevance to real-world applications, robustness, and privacy-preserving nature. In this paper, we propose a novel approach for unsupervised skeleton-based temp...

ID: 2508.04513v1 cs.CV

arXiv PDF

📄 Conditional Fetal Brain Atlas Learning for Automatic Tissue Segmentation

2025-08-09

Авторы:

Johannes Tischer, Patric Kienast, Marlene Stümpflen, Gregor Kasprian, Georg Langs, Roxane Licandro

Условная атласная модель для сегментации тканей мозга неbornого ребенка (Fetal Brain Atlas Learning for Automatic Tissue Segmentation) решает проблему стандартизации и анализа МРТ изображений мозга неbornого ребенка, которые часто бывают непостоянными в зависимости от возраста беременности, протоколов съемки и степени точности оценки возраста беременности (GA). Метод предлагает генерировать условные, возрастно-специфичные модели, используя нейронные сети с регистрацией и условным дискриминатором. Модель обучалась на 219 MR-снимках неbornого мозга от 21 до 37 недель во втором триместре. Она достигла высокой аккуратности регистрации и точной сегментации шести зон мозга с DSC 86.3%. Благодаря этому, модель позволяет проводить детальный анализ развития мозга неbornого ребенка, дающий более точные траектории роста мозга, и оказывает важное значение для клинических исследований и применений.

Annotation:

Magnetic Resonance Imaging (MRI) of the fetal brain has become a key tool for studying brain development in vivo. Yet, its assessment remains challenging due to variability in brain maturation, imaging protocols, and uncertain estimates of Gestational Age (GA). To overcome these, brain atlases provide a standardized reference framework that facilitates objective evaluation and comparison across subjects by aligning the atlas and subjects in a common coordinate system. In this work, we introduce ...

ID: 2508.04522v1 eess.IV, cs.CV, cs.LG, 68T07 (Primary) 92C50 (Secondary), I.4.9; I.4.6; I.2.0

arXiv PDF

📄 No Masks Needed: Explainable AI for Deriving Segmentation from Classification

2025-08-09

Авторы:

Mosong Ma, Tania Stathaki, Michalis Lazarou

Медицинское изображение сегментации является ключевым элементом компьютерноассистированной диагностики, но применение нейросетевых моделей, обученных на стандартных датасетах, к медицинским изображениям часто приводит к недостаточной точности. В статье предлагается новая подходящая для медицины методика, основанная на оптимальном пристройке предварительно обученных моделей к индивидуальным характеристикам медицинских изображений. Характерным отличием является интеграция Экспериментальной ИИ, которая позволяет генерировать релевантность метрик в процессе сегментации. Это позволяет не только улучшить точность полученных результатов, но и предоставить понятную логику для клинического применения. Эксперименты показали, что предложенный подход показал значительное улучшение на датасетах CBIS-DDSM, NuInsSeg и Kvasir-SEG по сравнению с традиционными точечными методами. Это демонстрирует его силу в решении реальных проблем в области медицинской интеллектуальной аналитики.

Annotation:

Medical image segmentation is vital for modern healthcare and is a key element of computer-aided diagnosis. While recent advancements in computer vision have explored unsupervised segmentation using pre-trained models, these methods have not been translated well to the medical imaging domain. In this work, we introduce a novel approach that fine-tunes pre-trained models specifically for medical images, achieving accurate segmentation with extensive processing. Our method integrates Explainable A...

ID: 2508.04534v1 cs.CV

arXiv PDF

📄 TopKD: Top-scaled Knowledge Distillation

2025-08-09

Авторы:

Qi Wang, Jinjia Zhou

Недавние достижения в области knowledge distillation (KD) направлены на передачу знаний на уровне признаков, но часто игнорируют важные сведения, содержащиеся в teacher's logit distributions. В статье предлагается вернуться к logit-based distillation и раскрыть новый, недостаточно изученный аспект — Top-K knowledge. На этой основе разработан Top-scaled Knowledge Distillation (TopKD), простой, эффективный и архитектурно независимый подход, который значительно улучшает logit-based KD. TopKD включает две основные компоненты: (1) Top-K Scaling Module (TSM), который адаптивно усиливает наиболее важные logits, и (2) Top-K Decoupled Loss (TDL), обеспечивающий целевую и эффективную супервайз. TopKD может легко интегрироваться с существующими KD-методами без дополнительных модулей или архитектурных изменений. Эксперименты на CIFAR-100, ImageNet, STL-10 и Tiny-ImageNet показали, что TopKD превосходит современные KD-методы, а также демонстрирует высокую эффективность при передачи знаний в Vision Transformers, подтверждая широкую верситльность и перспективность использования logits в KD.

Annotation:

Recent advances in knowledge distillation (KD) predominantly emphasize feature-level knowledge transfer, frequently overlooking critical information embedded within the teacher's logit distributions. In this paper, we revisit logit-based distillation and reveal an underexplored yet critical element: Top-K knowledge. Motivated by this insight, we propose Top-scaled Knowledge Distillation (TopKD), a simple, efficient, and architecture-agnostic framework that significantly enhances logit-based dist...

ID: 2508.04539v1 cs.CV

arXiv PDF

📄 InceptoFormer: A Multi-Signal Neural Framework for Parkinson's Disease Severity Evaluation from Gait

2025-08-09

Авторы:

Safwen Naimi, Arij Said, Wassim Bouachir, Guillaume-Alexandre Bilodeau

Parkinson's Disease (PD) является сложной неврологической заболеванием, которая требует точной оценки степени тяжести для эффективного лечения. **InceptoFormer** — это инновационная нейросетевая модель, предназначенная для оценки степени симптомов PD на основе динамики ходьбы. Архитектура модели включает **Inception1D** — 1D-адаптацию Inception-модели, которая эффективно извлекает многомерные частотные признаки, и **Transformer-based framework**, которая анализирует локальные и глобальные зависимости в последовательности ходьбы. Чтобы сдвинуться от проблемы несбалансированности классов, авторы предложили стратегию препроцессинга данных с использованием oversampling для усиления представительности редких уровней степени симптомов. На экспериментальных данных модель показала 96,6% точности, превысив существующие методы. Результаты подтверждают, что InceptoFormer является сильным инструментом для точной оценки степени тяжести PD на основе динамики ходьбы. Исходный код доступен на GitHub.

Annotation:

We present InceptoFormer, a multi-signal neural framework designed for Parkinson's Disease (PD) severity evaluation via gait dynamics analysis. Our architecture introduces a 1D adaptation of the Inception model, which we refer to as Inception1D, along with a Transformer-based framework to stage PD severity according to the Hoehn and Yahr (H&Y) scale. The Inception1D component captures multi-scale temporal features by employing parallel 1D convolutional filters with varying kernel sizes, thereby ...

ID: 2508.04540v1 cs.CV

arXiv PDF

📄 Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding

2025-08-09

Авторы:

Minghang Zheng, Yuxin Peng, Benyuan Sun, Yi Yang, Yang Liu

Задача онлайн-видео-темпорального граундинга (OnVTG) предполагает точное и быстрое определение событий, связанных с текстовым запросом, в непрерывном видеопотоке, при этом ограничиваясь только прошедшими кадрами. Традиционные подходы сталкиваются с проблемами неэффективной моделирования событий и нехваткой долгосрочной информации, что приводит к уменьшению точности и скорости работы. В статье предлагается новый подход, основанный на использовании иерархической памяти событий (Hierarchical Event Memory), которая позволяет сохранять информацию о событиях различной продолжительности. Также вводится веточка прогноза будущих событий, позволяющая предсказать возможность их возникновения в ближайшем будущем и точнее определять их начало. Это решение позволило достичь новых рекордных результатов на таких датасетах, как TACoS, ActivityNet Captions и MAD. Исходный код доступен по ссылке: https://github.com/minghangz/OnVTG.

Annotation:

In this paper, we tackle the task of online video temporal grounding (OnVTG), which requires the model to locate events related to a given text query within a video stream. Unlike regular video temporal grounding, OnVTG requires the model to make predictions without observing future frames. As online videos are streaming inputs and can go on indefinitely, it is impractical and inefficient to store all historical inputs. The existing OnVTG models employ memory to store recent historical video fra...

ID: 2508.04546v1 cs.CV

arXiv PDF

📄 Two-Way Garment Transfer: Unified Diffusion Framework for Dressing and Undressing Synthesis

2025-08-09

Авторы:

Angang Zhang, Fang Deng, Hao Chen, Zhongjian Chen, Junyan Li

Несмотря на развитие технологий виртуальной попытки одежды (VTON), обратная задача — виртуальная попытка снятия (VTOFF), направленная на воссоздание шаблонов одежды из одетых людей — остается значительно недообследованной. Большинство работ рассматривают эти задачи как изолированные: VTON специализируется на одевании, в то время как VTOFF — на извлечении одежды, что недостаточно учитывает их взаимосвязь. Мы предлагаем новую модель Two-Way Garment Transfer Model (TWGTM), которая, по первым данным, является первым универсальным подходом к объединенному синтезу изображений одежды, решающим обе задачи одновременно. Модель использует двойное влияние условий из латентного и пиксельного пространств справочных изображений, чтобы объединить две задачи в единое целое. Для того, чтобы устранить асимметрию в зависимости от масок между VTON и VTOFF, мы разработали тренировочный парадигму, постепенно решающую эту проблему. Эксперименты на датасетах DressCode и VITON-HD подтвердили высокую эффективность и конкурентную привлекательность нашего подхода.

Annotation:

While recent advances in virtual try-on (VTON) have achieved realistic garment transfer to human subjects, its inverse task, virtual try-off (VTOFF), which aims to reconstruct canonical garment templates from dressed humans, remains critically underexplored and lacks systematic investigation. Existing works predominantly treat them as isolated tasks: VTON focuses on garment dressing while VTOFF addresses garment extraction, thereby neglecting their complementary symmetry. To bridge this fundamen...

ID: 2508.04551v1 cs.CV

arXiv PDF

📄 Augmentation-based Domain Generalization and Joint Training from Multiple Source Domains for Whole Heart Segmentation

2025-08-09

Авторы:

Franz Thaler, Darko Stern, Gernot Plank, Martin Urschler

В статье предлагается метод для векторной сегментации целого сердца на основе многоисточниковых данных с учетом доменного сдвига. Несмотря на прогрессы в deep learning для медицинской сегментации, хорошая точность в условиях доменного сдвига (когда тренировочные и тестовые данные отличаются по распределению) остается сложной задачей. Для тренировки используется метод балансировки по типам данных (CT и MR) и сильные техники увеличения разнообразия при помощи аугментаций. На тесте показана высокая точность: 93.33% DSC и 0.8388 mm ASSD для CT и 89.30% DSC и 1.2411 mm ASSD для MR. Это позволяет генерировать точные пациент-специфичные модели сердца, необходимые для электрофизиологических и терапевтических планов. Результаты показывают, что предложенный подход эффективен для решения проблемы доменного сдвига в медицинской имидж-сегментации.

Annotation:

As the leading cause of death worldwide, cardiovascular diseases motivate the development of more sophisticated methods to analyze the heart and its substructures from medical images like Computed Tomography (CT) and Magnetic Resonance (MR). Semantic segmentations of important cardiac structures that represent the whole heart are useful to assess patient-specific cardiac morphology and pathology. Furthermore, accurate semantic segmentations can be used to generate cardiac digital twin models whi...

ID: 2508.04552v1 cs.CV, cs.LG

arXiv PDF

1
2
1138
1139
1140
1141
1142
1161
1162

Показано 11391 - 11400 из 11614 записей