VOccl3D: A Video Benchmark Dataset for 3D Human Pose and Shape Estimation under real Occlusions

2508.06757v1 cs.CV, cs.GR 2025-08-14
Авторы:

Yash Garg, Saketh Bachu, Arindam Dutta, Rohit Lal, Sarosij Bose, Calvin-Khang Ta, M. Salman Asif, Amit Roy-Chowdhury

Резюме на русском

## Контекст В последние годы постепенно усиливается интерес к методам оценки трехмерной формы и позы человека (HPS) в реальном мире. Эти методы основываются на изображениях и видео, где необходимо определить трехмерные координаты тела и свойства одежды. Однако существуют существенные проблемы в области HPS, особенно при работе с объектами, покрытыми многослойной одеждой, или находящихся в условиях значительных окклюзий. Несмотря на то, что многие модели показали высокую точность в условиях безухажистых изображений и видео, технические ограничения не позволяют их эффективно использовать в реальных сценариях с интенсивными окклюзиями. Для подтверждения данного положения существует недостаточное количество реалистичных данных, которые могли бы оказаться полезными для развития HPS. ## Метод Мы предлагаем VOccl3D — новый бенчмарк-датасет, состоящий из видео-снимков, где человек находится в условиях сильных окклюзий. Данный ресурс был сформирован с использованием высокоточных графических технологий, позволяющих создавать реалистичные модели со всеми деталями одежды, механизмов тела и движений. Мы использовали рендеринг в High-Fidelity Graphics, включили в датасет различные ситуации с окклюзиями, от ситуаций с большим количеством пространственных ограничений до случаев, когда человек оказывается в полной окклюзии. Наша модель основывается на процессе обучения с подкреплением (reinforcement learning) для точного построения трехмерной модели человека. ## Результаты Мы провели эксперименты для точного определения трехмерных координат тела и текстур одежды в условиях сильных окклюзий. В результате нашей модели существенно улучшила точность по сравнению с предыдущими моделями, использующими те же датасеты. Мы также проверили нашу модель на открытых датасетах, а также сравнили ее с другими современными HPS-моделями. Были получены повышенные результаты как в теоретических аспектах, так и в практических. Обученная нашей моделью YOLO11 модель чувствительности улучшилась в значительной степени в ситуациях с окклюзиями, снизившимися до минимума. ## Значимость Наш датасет VOccl3D может быть широко использован в последующих исследованиях по трехмерной оценке тела и текстуры, особенно в сценариях с сильными окклюзиями. Мы показали, что модель предлагает существенные преимущества в сценариях с низким допуском ошибок в сложных окклюзионных условиях. Это может быть использовано для развития новых методов в области технологий 3D-оценки для технологий детектирования в реальном мире, включа

Abstract

Human pose and shape (HPS) estimation methods have been extensively studied, with many demonstrating high zero-shot performance on in-the-wild images and videos. However, these methods often struggle in challenging scenarios involving complex human poses or significant occlusions. Although some studies address 3D human pose estimation under occlusion, they typically evaluate performance on datasets that lack realistic or substantial occlusions, e.g., most existing datasets introduce occlusions with random patches over the human or clipart-style overlays, which may not reflect real-world challenges. To bridge this gap in realistic occlusion datasets, we introduce a novel benchmark dataset, VOccl3D, a Video-based human Occlusion dataset with 3D body pose and shape annotations. Inspired by works such as AGORA and BEDLAM, we constructed this dataset using advanced computer graphics rendering techniques, incorporating diverse real-world occlusion scenarios, clothing textures, and human motions. Additionally, we fine-tuned recent HPS methods, CLIFF and BEDLAM-CLIFF, on our dataset, demonstrating significant qualitative and quantitative improvements across multiple public datasets, as well as on the test split of our dataset, while comparing its performance with other state-of-the-art methods. Furthermore, we leveraged our dataset to enhance human detection performance under occlusion by fine-tuning an existing object detector, YOLO11, thus leading to a robust end-to-end HPS estimation system under occlusions. Overall, this dataset serves as a valuable resource for future research aimed at benchmarking methods designed to handle occlusions, offering a more realistic alternative to existing occlusion datasets. See the Project page for code and dataset:https://yashgarg98.github.io/VOccl3D-dataset/

Ссылки и действия