HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images
2508.16465v2
cs.CV, cs.AI, cs.HC, cs.LG, cs.RO
2025-08-26
Авторы:
Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez
Резюме на русском
## Контекст
Руко-предметное взаимодействие и трехмерное воспроизведение сцен являются ключевыми аспектами в приложениях для человеко-роботного взаимодействия и иммерсивных AR/VR-опытов. Однако, трехмерное воспроизведение рук и предметов на основе RGB-видео становится сложной задачей из-за различной геометрии объектов, слабых текстур, и руко-предметных оккультаций. Наиболее распространенным подходом является двухэтапная модель, включающую 3D-трекинг руки и предмета, а затем много birds-eye-view 3D-воспроизведение. В настоящее время, существующие методы полагаются на детекторы ключевых точек, такие как Structure from Motion (SfM) и руко-ключевая оптимизация, которые страдают от недостатка гибкости, нестеганности и ограниченной общимости. Мы предлагаем HOSt3R, первый технологический подход к руко-предметному трехмерному воспроизведению без использования ключевых точек, который обеспечивает широкую гибкость и улучшенную общимость для различных приложений.
## Метод
Чтобы справиться со сложностями трехмерного воспроизведения руки и предмета, мы предлагаем HOSt3R, новый класс методов, основанный на детектировании 3D-трансформаций руки и предмета без использования ключевых точек. Мы используем сильно нейросетевые архитектуры для автоматического выявления руки и предмета в каждом кадре. Далее, мы реализуем много birds-eye-view 3D-воспроизведение, используя последовательность изображений. Мы интегрируем наши модели с общедоступным SHOWMe-benchmark-датасетом, а также нашей собственной моделью тренировки, которая позволяет проверить нашу подходную модель в нескольких сценах. Наше 3D-моделирующее решение выдает гораздо точные и гибкие результаты по сравнению с другими методами.
## Результаты
Мы проверили нашу модель на двух открытых датасетах: SHOWMe и HO3D. Мы проводили эксперименты с различными руко-предметными сценами, включая нестандартные объекты и сильно оккультирующие руки и предметы, чтобы проверить гибкость и общимость наших методов. Мы получили результаты, которые превосходят существующие методы в трехмерном воспроизведении рук и предметов, используя только RGB-изображения без дополнительных сенсоров. Наш предложенный подход показал самые высокие показатели точности и обобщаемости по сравнению с другими текущими системами.
## Значимость
Наш подход имеет широкие применения в области человеко-роботного взаимодействия, иммерсивных AR/VR-технологий и даже в сфере глубокого обучения. Наш метод освобождает пользователей от требовани
Abstract
Hand-object 3D reconstruction has become increasingly important for
applications in human-robot interaction and immersive AR/VR experiences. A
common approach for object-agnostic hand-object reconstruction from RGB
sequences involves a two-stage pipeline: hand-object 3D tracking followed by
multi-view 3D reconstruction. However, existing methods rely on keypoint
detection techniques, such as Structure from Motion (SfM) and hand-keypoint
optimization, which struggle with diverse object geometries, weak textures, and
mutual hand-object occlusions, limiting scalability and generalization. As a
key enabler to generic and seamless, non-intrusive applicability, we propose in
this work a robust, keypoint detector-free approach to estimating hand-object
3D transformations from monocular motion video/images. We further integrate
this with a multi-view reconstruction pipeline to accurately recover
hand-object 3D shape. Our method, named HOSt3R, is unconstrained, does not rely
on pre-scanned object templates or camera intrinsics, and reaches
state-of-the-art performance for the tasks of object-agnostic hand-object 3D
transformation and shape estimation on the SHOWMe benchmark. We also experiment
on sequences from the HO3D dataset, demonstrating generalization to unseen
object categories.