📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 MonoCloth: Reconstruction and Animation of Cloth-Decoupled Human Avatars from Monocular Videos
2025-08-09Авторы:
Daisheng Jin, Ying He
Реалистичная реконструкция 3D-аватаров из монокулярных видео представляет собой сложную задачу, ограниченную недостатком геометрической информации и сложной неструктурированной динамикой. В статье предлагается MonoCloth — метод, который реализует реконструкцию и анимацию одетого человека с использованием монокулярных видео. Для улучшения результатов, авторы предлагают декомпозицию тела на части: тело, лицо, руки и одежда. Это помогает учесть различия в сложности реконструкции и деформации для каждой части. Особое внимание уделяется анализу детальной геометрии лица и рук, а для одежды — новому модулю симуляции одежды, использующему временные и геометрические сигналы. Эксперименты показали, что MonoCloth выдает более точные и реалистичные результаты по сравнению с другими методами. Благодаря декомпозиционному подходу, MonoCloth также поддерживает задачи переодевания, увеличивая его практическую значимость в различных задачах глубокого обучения.
Annotation:
Reconstructing realistic 3D human avatars from monocular videos is a
challenging task due to the limited geometric information and complex non-rigid
motion involved. We present MonoCloth, a new method for reconstructing and
animating clothed human avatars from monocular videos. To overcome the
limitations of monocular input, we introduce a part-based decomposition
strategy that separates the avatar into body, face, hands, and clothing. This
design reflects the varying levels of reconstruction di...
Авторы:
Haodong Zhu, Changbai Li, Yangyang Ren, Zichao Feng, Xuhui Liu, Hanlin Chen, Xiantong Zhen, Baochang Zhang
Реконструкция 3D-сцен из нескольких видов (многовидовая реконструкция) требует точного расчета калибровки и позиционирования камеры, что затрудняет ее применение в практических задачах. Мы предлагаем Surf3R — метод, который реконструирует 3D-поверхности из нескольких спарсевых видов без необходимости точного расчета камеры. Модель работает в единой сети и использует несколько спарсевых видов для взаимодействия и улучшения реконструкции. Один из ключевых моментов — введение D-Normal regularizer, который оптимизирует геометрические параметры поверхности с помощью 3D-представления нормалей. Это позволяет повысить точность и постоянство реконструкции. На двух известных датасетах (ScanNet++ и Replica) метод показал результаты, значительно превосходящие современные подходы по метрикам качества и эффективности. Таким образом, Surf3R представляет собой эффективное и оптимизированное решение для реконструкции 3D-поверхностей из нескольких видов.
Annotation:
Current multi-view 3D reconstruction methods rely on accurate camera
calibration and pose estimation, requiring complex and time-intensive
pre-processing that hinders their practical deployment. To address this
challenge, we introduce Surf3R, an end-to-end feedforward approach that
reconstructs 3D surfaces from sparse views without estimating camera poses and
completes an entire scene in under 10 seconds. Our method employs a
multi-branch and multi-view decoding architecture in which multiple re...
Авторы:
Uzay Gökay, Federico Spurio, Dominik R. Bach, Juergen Gall
Ученые разработали метод для неучитывающего руководства (unsupervised) сегментации временных действий на основе скелетонных последовательностей. Несмотря на важность и реальность применения таких последовательностей в реальных условиях, существующие учитывающие руководство (supervised) методы требуют дорогостоящих аннотированных данных, что ограничивает их применение. Предложенный подход основывается на последовательности-к-последовательности (sequence-to-sequence) временном автоенкодере, который позволяет дискретизировать последовательности ключевых движений (skeleton motion words). Эти слова используются для выявления семантически значимых кластеров действий. Метод был протестирован на трех популярных скелетонных датасетах: HuGaDB, LARa и BABEL. Результаты показали, что предложенный метод превосходит нынешние состояние технологий (state-of-the-art) в неучитывающем руководстве сегментации временных действий. Это решение значительно повышает эффективность и доступность анализа скелетонных последовательностей в неучитывающих руководства режимах.
Annotation:
Current state-of-the-art methods for skeleton-based temporal action
segmentation are predominantly supervised and require annotated data, which is
expensive to collect. In contrast, existing unsupervised temporal action
segmentation methods have focused primarily on video data, while skeleton
sequences remain underexplored, despite their relevance to real-world
applications, robustness, and privacy-preserving nature. In this paper, we
propose a novel approach for unsupervised skeleton-based temp...
Авторы:
Johannes Tischer, Patric Kienast, Marlene Stümpflen, Gregor Kasprian, Georg Langs, Roxane Licandro
Условная атласная модель для сегментации тканей мозга неbornого ребенка (Fetal Brain Atlas Learning for Automatic Tissue Segmentation) решает проблему стандартизации и анализа МРТ изображений мозга неbornого ребенка, которые часто бывают непостоянными в зависимости от возраста беременности, протоколов съемки и степени точности оценки возраста беременности (GA). Метод предлагает генерировать условные, возрастно-специфичные модели, используя нейронные сети с регистрацией и условным дискриминатором. Модель обучалась на 219 MR-снимках неbornого мозга от 21 до 37 недель во втором триместре. Она достигла высокой аккуратности регистрации и точной сегментации шести зон мозга с DSC 86.3%. Благодаря этому, модель позволяет проводить детальный анализ развития мозга неbornого ребенка, дающий более точные траектории роста мозга, и оказывает важное значение для клинических исследований и применений.
Annotation:
Magnetic Resonance Imaging (MRI) of the fetal brain has become a key tool for
studying brain development in vivo. Yet, its assessment remains challenging due
to variability in brain maturation, imaging protocols, and uncertain estimates
of Gestational Age (GA). To overcome these, brain atlases provide a
standardized reference framework that facilitates objective evaluation and
comparison across subjects by aligning the atlas and subjects in a common
coordinate system. In this work, we introduce ...
Авторы:
Mosong Ma, Tania Stathaki, Michalis Lazarou
Медицинское изображение сегментации является ключевым элементом компьютерноассистированной диагностики, но применение нейросетевых моделей, обученных на стандартных датасетах, к медицинским изображениям часто приводит к недостаточной точности. В статье предлагается новая подходящая для медицины методика, основанная на оптимальном пристройке предварительно обученных моделей к индивидуальным характеристикам медицинских изображений. Характерным отличием является интеграция Экспериментальной ИИ, которая позволяет генерировать релевантность метрик в процессе сегментации. Это позволяет не только улучшить точность полученных результатов, но и предоставить понятную логику для клинического применения. Эксперименты показали, что предложенный подход показал значительное улучшение на датасетах CBIS-DDSM, NuInsSeg и Kvasir-SEG по сравнению с традиционными точечными методами. Это демонстрирует его силу в решении реальных проблем в области медицинской интеллектуальной аналитики.
Annotation:
Medical image segmentation is vital for modern healthcare and is a key
element of computer-aided diagnosis. While recent advancements in computer
vision have explored unsupervised segmentation using pre-trained models, these
methods have not been translated well to the medical imaging domain. In this
work, we introduce a novel approach that fine-tunes pre-trained models
specifically for medical images, achieving accurate segmentation with extensive
processing. Our method integrates Explainable A...
📄 TopKD: Top-scaled Knowledge Distillation
2025-08-09Авторы:
Qi Wang, Jinjia Zhou
Недавние достижения в области knowledge distillation (KD) направлены на передачу знаний на уровне признаков, но часто игнорируют важные сведения, содержащиеся в teacher's logit distributions. В статье предлагается вернуться к logit-based distillation и раскрыть новый, недостаточно изученный аспект — Top-K knowledge. На этой основе разработан Top-scaled Knowledge Distillation (TopKD), простой, эффективный и архитектурно независимый подход, который значительно улучшает logit-based KD. TopKD включает две основные компоненты: (1) Top-K Scaling Module (TSM), который адаптивно усиливает наиболее важные logits, и (2) Top-K Decoupled Loss (TDL), обеспечивающий целевую и эффективную супервайз. TopKD может легко интегрироваться с существующими KD-методами без дополнительных модулей или архитектурных изменений. Эксперименты на CIFAR-100, ImageNet, STL-10 и Tiny-ImageNet показали, что TopKD превосходит современные KD-методы, а также демонстрирует высокую эффективность при передачи знаний в Vision Transformers, подтверждая широкую верситльность и перспективность использования logits в KD.
Annotation:
Recent advances in knowledge distillation (KD) predominantly emphasize
feature-level knowledge transfer, frequently overlooking critical information
embedded within the teacher's logit distributions. In this paper, we revisit
logit-based distillation and reveal an underexplored yet critical element:
Top-K knowledge. Motivated by this insight, we propose Top-scaled Knowledge
Distillation (TopKD), a simple, efficient, and architecture-agnostic framework
that significantly enhances logit-based dist...
Авторы:
Safwen Naimi, Arij Said, Wassim Bouachir, Guillaume-Alexandre Bilodeau
Parkinson's Disease (PD) является сложной неврологической заболеванием, которая требует точной оценки степени тяжести для эффективного лечения. **InceptoFormer** — это инновационная нейросетевая модель, предназначенная для оценки степени симптомов PD на основе динамики ходьбы. Архитектура модели включает **Inception1D** — 1D-адаптацию Inception-модели, которая эффективно извлекает многомерные частотные признаки, и **Transformer-based framework**, которая анализирует локальные и глобальные зависимости в последовательности ходьбы. Чтобы сдвинуться от проблемы несбалансированности классов, авторы предложили стратегию препроцессинга данных с использованием oversampling для усиления представительности редких уровней степени симптомов. На экспериментальных данных модель показала 96,6% точности, превысив существующие методы. Результаты подтверждают, что InceptoFormer является сильным инструментом для точной оценки степени тяжести PD на основе динамики ходьбы. Исходный код доступен на GitHub.
Annotation:
We present InceptoFormer, a multi-signal neural framework designed for
Parkinson's Disease (PD) severity evaluation via gait dynamics analysis. Our
architecture introduces a 1D adaptation of the Inception model, which we refer
to as Inception1D, along with a Transformer-based framework to stage PD
severity according to the Hoehn and Yahr (H&Y) scale. The Inception1D component
captures multi-scale temporal features by employing parallel 1D convolutional
filters with varying kernel sizes, thereby ...
Авторы:
Minghang Zheng, Yuxin Peng, Benyuan Sun, Yi Yang, Yang Liu
Задача онлайн-видео-темпорального граундинга (OnVTG) предполагает точное и быстрое определение событий, связанных с текстовым запросом, в непрерывном видеопотоке, при этом ограничиваясь только прошедшими кадрами. Традиционные подходы сталкиваются с проблемами неэффективной моделирования событий и нехваткой долгосрочной информации, что приводит к уменьшению точности и скорости работы. В статье предлагается новый подход, основанный на использовании иерархической памяти событий (Hierarchical Event Memory), которая позволяет сохранять информацию о событиях различной продолжительности. Также вводится веточка прогноза будущих событий, позволяющая предсказать возможность их возникновения в ближайшем будущем и точнее определять их начало. Это решение позволило достичь новых рекордных результатов на таких датасетах, как TACoS, ActivityNet Captions и MAD. Исходный код доступен по ссылке: https://github.com/minghangz/OnVTG.
Annotation:
In this paper, we tackle the task of online video temporal grounding (OnVTG),
which requires the model to locate events related to a given text query within
a video stream. Unlike regular video temporal grounding, OnVTG requires the
model to make predictions without observing future frames. As online videos are
streaming inputs and can go on indefinitely, it is impractical and inefficient
to store all historical inputs. The existing OnVTG models employ memory to
store recent historical video fra...
📄 Two-Way Garment Transfer: Unified Diffusion Framework for Dressing and Undressing Synthesis
2025-08-09Авторы:
Angang Zhang, Fang Deng, Hao Chen, Zhongjian Chen, Junyan Li
Несмотря на развитие технологий виртуальной попытки одежды (VTON), обратная задача — виртуальная попытка снятия (VTOFF), направленная на воссоздание шаблонов одежды из одетых людей — остается значительно недообследованной. Большинство работ рассматривают эти задачи как изолированные: VTON специализируется на одевании, в то время как VTOFF — на извлечении одежды, что недостаточно учитывает их взаимосвязь. Мы предлагаем новую модель Two-Way Garment Transfer Model (TWGTM), которая, по первым данным, является первым универсальным подходом к объединенному синтезу изображений одежды, решающим обе задачи одновременно. Модель использует двойное влияние условий из латентного и пиксельного пространств справочных изображений, чтобы объединить две задачи в единое целое. Для того, чтобы устранить асимметрию в зависимости от масок между VTON и VTOFF, мы разработали тренировочный парадигму, постепенно решающую эту проблему. Эксперименты на датасетах DressCode и VITON-HD подтвердили высокую эффективность и конкурентную привлекательность нашего подхода.
Annotation:
While recent advances in virtual try-on (VTON) have achieved realistic
garment transfer to human subjects, its inverse task, virtual try-off (VTOFF),
which aims to reconstruct canonical garment templates from dressed humans,
remains critically underexplored and lacks systematic investigation. Existing
works predominantly treat them as isolated tasks: VTON focuses on garment
dressing while VTOFF addresses garment extraction, thereby neglecting their
complementary symmetry. To bridge this fundamen...
Авторы:
Franz Thaler, Darko Stern, Gernot Plank, Martin Urschler
В статье предлагается метод для векторной сегментации целого сердца на основе многоисточниковых данных с учетом доменного сдвига. Несмотря на прогрессы в deep learning для медицинской сегментации, хорошая точность в условиях доменного сдвига (когда тренировочные и тестовые данные отличаются по распределению) остается сложной задачей. Для тренировки используется метод балансировки по типам данных (CT и MR) и сильные техники увеличения разнообразия при помощи аугментаций. На тесте показана высокая точность: 93.33% DSC и 0.8388 mm ASSD для CT и 89.30% DSC и 1.2411 mm ASSD для MR. Это позволяет генерировать точные пациент-специфичные модели сердца, необходимые для электрофизиологических и терапевтических планов. Результаты показывают, что предложенный подход эффективен для решения проблемы доменного сдвига в медицинской имидж-сегментации.
Annotation:
As the leading cause of death worldwide, cardiovascular diseases motivate the
development of more sophisticated methods to analyze the heart and its
substructures from medical images like Computed Tomography (CT) and Magnetic
Resonance (MR). Semantic segmentations of important cardiac structures that
represent the whole heart are useful to assess patient-specific cardiac
morphology and pathology. Furthermore, accurate semantic segmentations can be
used to generate cardiac digital twin models whi...
Показано 11391 -
11400
из 11614 записей