MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

2509.00649v1 cs.CV, cs.RO 2025-09-05

Авторы:

Aviral Chharia, Wenbo Gou, Haoye Dong

Резюме на русском

## Контекст 3D human pose estimation является ключевым заданием в области визуального понимания, с помощью которого можно определить локацию человеческого тела в пространстве. Несмотря на то, что задача 3D human pose estimation была значительно продвинута в последние годы, она все еще имеет ряд сложностей, особенно в случае использования нескольких камер. Одним из основных трудностей является обучение моделей, которые могут общаться между разными видами ресурсов, такими как несколько камер, и по-прежнему моделировать пространственные отношения между человеческими ключевыми точками. Существующие модели часто сталкиваются с проблемами связанными с ограниченностью обучения, переобучением и неэффективным использованием нескольких источников входных данных, что приводит к снижению точности. Мы предлагаем новую модель Multi-View State Space Modeling (MV-SSM) для повышения производительности в задаче multi-view 3D human pose estimation. ## Метод Мы предлагаем Multi-View State Space Modeling (MV-SSM), который является исключительно эффективным фреймворком для 3D human pose estimation. Наша модель использует многокамерные входные данные, чтобы моделировать пространственные отношения между ключевыми точками в человеческом теле. Мы предлагаем **Projective State Space (PSS)** блок, который моделирует локальные и глобальные структуры пространственных отношений, используя **state space modeling**. Блок PSS также содержит **Grid Token-guided Bidirectional Scanning (GTBS)**, что позволяет моделировать пространственные отношения в сетке, чтобы улучшить общую точность. Мы также используем **multi-view attention** для обеспечения переносимости и обучения модели к новым условиям камеры. ## Результаты Мы проверили нашу модель на нескольких вызовных наборах данных, включая CMU Panoptic, Campus A1 и другие. Мы сравнили MV-SSM с текущими ведущими моделями и доказали, что она показала значительное улучшение в 3D human pose estimation. Например, на CMU Panoptic, наша модель показала +10.8 на AP25 (+24%) во время выполнения трех камер, +7.0 на AP25 (+13%) в случае изменения конфигурации камер, и +15.3 PCP (+38%) во время переносимости на другой датасет. Эти результаты подтверждают силу нашей модели в области generalization и точности в multi-view 3D human pose estimation. ## Значимость Наше решение может быть применено в различных областях, таких как VR/AR, робототехника, интерактивные технологии, где 3D human pose estimation требуется. Мы показали, что MV-SSM может общаться между разными камерами и обнаруживать человеческие ключевые точки в сложных условиях, таких как сцены с оккультацией. Это делает нашу модель более универсальной и эффективной для решения задач визуального понимания. Мы также отметили, что MV-SSM показала высокую точность в задаче обучения к новым условиям камеры, что является ключевым преимуществом по сравнению с другими мо

Abstract

While significant progress has been made in single-view 3D human pose estimation, multi-view 3D human pose estimation remains challenging, particularly in terms of generalizing to new camera configurations. Existing attention-based transformers often struggle to accurately model the spatial arrangement of keypoints, especially in occluded scenarios. Additionally, they tend to overfit specific camera arrangements and visual scenes from training data, resulting in substantial performance drops in new settings. In this study, we introduce a novel Multi-View State Space Modeling framework, named MV-SSM, for robustly estimating 3D human keypoints. We explicitly model the joint spatial sequence at two distinct levels: the feature level from multi-view images and the person keypoint level. We propose a Projective State Space (PSS) block to learn a generalized representation of joint spatial arrangements using state space modeling. Moreover, we modify Mamba's traditional scanning into an effective Grid Token-guided Bidirectional Scanning (GTBS), which is integral to the PSS block. Multiple experiments demonstrate that MV-SSM achieves strong generalization, outperforming state-of-the-art methods: +10.8 on AP25 (+24%) on the challenging three-camera setting in CMU Panoptic, +7.0 on AP25 (+13%) on varying camera arrangements, and +15.3 PCP (+38%) on Campus A1 in cross-dataset evaluations. Project Website: https://aviralchharia.github.io/MV-SSM

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация