VOccl3D: A Video Benchmark Dataset for 3D Human Pose and Shape Estimation under real Occlusions
2508.06757v1
cs.CV, cs.GR
2025-08-14
Авторы:
Yash Garg, Saketh Bachu, Arindam Dutta, Rohit Lal, Sarosij Bose, Calvin-Khang Ta, M. Salman Asif, Amit Roy-Chowdhury
Резюме на русском
## Контекст
В последние годы постепенно усиливается интерес к методам оценки трехмерной формы и позы человека (HPS) в реальном мире. Эти методы основываются на изображениях и видео, где необходимо определить трехмерные координаты тела и свойства одежды. Однако существуют существенные проблемы в области HPS, особенно при работе с объектами, покрытыми многослойной одеждой, или находящихся в условиях значительных окклюзий. Несмотря на то, что многие модели показали высокую точность в условиях безухажистых изображений и видео, технические ограничения не позволяют их эффективно использовать в реальных сценариях с интенсивными окклюзиями. Для подтверждения данного положения существует недостаточное количество реалистичных данных, которые могли бы оказаться полезными для развития HPS.
## Метод
Мы предлагаем VOccl3D — новый бенчмарк-датасет, состоящий из видео-снимков, где человек находится в условиях сильных окклюзий. Данный ресурс был сформирован с использованием высокоточных графических технологий, позволяющих создавать реалистичные модели со всеми деталями одежды, механизмов тела и движений. Мы использовали рендеринг в High-Fidelity Graphics, включили в датасет различные ситуации с окклюзиями, от ситуаций с большим количеством пространственных ограничений до случаев, когда человек оказывается в полной окклюзии. Наша модель основывается на процессе обучения с подкреплением (reinforcement learning) для точного построения трехмерной модели человека.
## Результаты
Мы провели эксперименты для точного определения трехмерных координат тела и текстур одежды в условиях сильных окклюзий. В результате нашей модели существенно улучшила точность по сравнению с предыдущими моделями, использующими те же датасеты. Мы также проверили нашу модель на открытых датасетах, а также сравнили ее с другими современными HPS-моделями. Были получены повышенные результаты как в теоретических аспектах, так и в практических. Обученная нашей моделью YOLO11 модель чувствительности улучшилась в значительной степени в ситуациях с окклюзиями, снизившимися до минимума.
## Значимость
Наш датасет VOccl3D может быть широко использован в последующих исследованиях по трехмерной оценке тела и текстуры, особенно в сценариях с сильными окклюзиями. Мы показали, что модель предлагает существенные преимущества в сценариях с низким допуском ошибок в сложных окклюзионных условиях. Это может быть использовано для развития новых методов в области технологий 3D-оценки для технологий детектирования в реальном мире, включа
Abstract
Human pose and shape (HPS) estimation methods have been extensively studied,
with many demonstrating high zero-shot performance on in-the-wild images and
videos. However, these methods often struggle in challenging scenarios
involving complex human poses or significant occlusions. Although some studies
address 3D human pose estimation under occlusion, they typically evaluate
performance on datasets that lack realistic or substantial occlusions, e.g.,
most existing datasets introduce occlusions with random patches over the human
or clipart-style overlays, which may not reflect real-world challenges. To
bridge this gap in realistic occlusion datasets, we introduce a novel benchmark
dataset, VOccl3D, a Video-based human Occlusion dataset with 3D body pose and
shape annotations. Inspired by works such as AGORA and BEDLAM, we constructed
this dataset using advanced computer graphics rendering techniques,
incorporating diverse real-world occlusion scenarios, clothing textures, and
human motions. Additionally, we fine-tuned recent HPS methods, CLIFF and
BEDLAM-CLIFF, on our dataset, demonstrating significant qualitative and
quantitative improvements across multiple public datasets, as well as on the
test split of our dataset, while comparing its performance with other
state-of-the-art methods. Furthermore, we leveraged our dataset to enhance
human detection performance under occlusion by fine-tuning an existing object
detector, YOLO11, thus leading to a robust end-to-end HPS estimation system
under occlusions. Overall, this dataset serves as a valuable resource for
future research aimed at benchmarking methods designed to handle occlusions,
offering a more realistic alternative to existing occlusion datasets. See the
Project page for code and dataset:https://yashgarg98.github.io/VOccl3D-dataset/
Ссылки и действия
Дополнительные ресурсы: