MagicHOI: Leveraging 3D Priors for Accurate Hand-object Reconstruction from Short Monocular Video Clips

2508.05506v1 cs.CV 2025-08-09

Авторы:

Shibo Wang, Haonan He, Maria Parelli, Christoph Gebhardt, Zicong Fan, Jie Song

Резюме на русском

На мобильных устройствах часто возникает необходимость воссоздать интерактивные объекты в реальном времени, но существующие методы часто сталкиваются с проблемами неполного обнаружения объектов из-за ограниченных видов камеры и статичных хватов. Мы предлагаем MagicHOI — метод реконструкции рук и объектов из коротких монокульарных видео, даже при неполном видимом взаимодействии. Наша идея заключается в использовании представлений объектов, полученных в рамках моделей нового вида синтеза, для регулирования невидимых объектных регионов в ходе интерактивного взаимодействия. В нашем подходе включена методика установления контакта руки с объектом, что позволяет обеспечить более точные реконструкции. Наши эксперименты показали, что MagicHOI значительно превосходит текущие методы, реализуя эффективный интеграционный подход с применением моделей нового вида синтеза для регулирования невидимых регионов. Это демонстрирует значительный вклад в развитие технологий для мобильных устройств и виртуальной реальности.

Abstract

Most RGB-based hand-object reconstruction methods rely on object templates, while template-free methods typically assume full object visibility. This assumption often breaks in real-world settings, where fixed camera viewpoints and static grips leave parts of the object unobserved, resulting in implausible reconstructions. To overcome this, we present MagicHOI, a method for reconstructing hands and objects from short monocular interaction videos, even under limited viewpoint variation. Our key insight is that, despite the scarcity of paired 3D hand-object data, large-scale novel view synthesis diffusion models offer rich object supervision. This supervision serves as a prior to regularize unseen object regions during hand interactions. Leveraging this insight, we integrate a novel view synthesis model into our hand-object reconstruction framework. We further align hand to object by incorporating visible contact constraints. Our results demonstrate that MagicHOI significantly outperforms existing state-of-the-art hand-object reconstruction methods. We also show that novel view synthesis diffusion priors effectively regularize unseen object regions, enhancing 3D hand-object reconstruction.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MagicHOI: Leveraging 3D Priors for Accurate Hand-object Reconstruction from Short Monocular Video Clips

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация