AugLift: Boosting Generalization in Lifting-based 3D Human Pose Estimation
2508.07112v1
cs.CV, cs.LG
2025-08-13
Авторы:
Nikolai Warner, Wenjin Zhang, Irfan Essa, Apaar Sadhwani
Резюме на русском
#### Контекст
Одна из основных задач в глубоком обучении — 3D Human Pose Estimation (HPE) — представляет собой процесс определения трехмерной позы человека на основе изображений или видео. Эта задача находит применение в различных областях, включая робототехнику, работу с имиджем, игровые приложения и системы трекинга движений. Однако существующие модели лифтинг-based, которые преобразуют данные 2D-кейпоинтов в трехмерные позы, часто сталкиваются с проблемами недостаточной общеуниверсальности и существенными различиями при переходе от одного датасета к другому. Мотивация для этого исследования заключается в поиске эффективных способов повысить общеуниверсальность таких моделей, чтобы они могли единообразно работать в различных сценариях и приложениях.
#### Метод
Предлагаемая методика AugLift представляет собой модульную интеграцию в стандартную рабочую лифтинг-пайплайн. Она базируется на добавлении дополнительных сигналов к стандартным 2D-кейпоинтам, в частности — надежности детекции $(c)$ и оценки глубины $(d)$. Эти дополнительные сигналы вычисляются с помощью предварительно обученных сетей, например, для монокулярной оценки глубины. Это делает AugLift легковесным и модульным решением, которое может быть легко добавлено к существующим моделям лифтинга. Такая модификация позволяет добавить к 2D-кейпоинтам более широкий контекст, который улучшает различие между людьми и объектами в изображениях, а также предоставляет лучшую регуляризацию для моделей.
#### Результаты
В ходе экспериментов были выполнены тесты на четыре различных датасета для 3D HPE. Результаты показывают, что AugLift улучшает общую среднюю точность лифтинга на 10.1% при перекрестном переходе между датасетами, что позволяет лучше адаптировать модели к реальному миру. Также был отмечен повышение внутридатасетной точности на 4.0%. Эти результаты были достигнуты без дополнительного сбора данных или задействования дополнительных сенсоров. Сравнительный анализ показал, что AugLift сохраняет свою эффективность для различных архитектур лифтинга, что демонстрирует его широкую применимость.
#### Значимость
Предлагаемая методика AugLift может быть применена в различных областях, где применяются лифтинг-based 3D HPE, включая робототехнику, видеоанализ и системы видеоконференцсвязи. Основные преимущества AugLift заключаются в его простоте и модульности, что позволяет быстро и эффективно улучшить существующие модели. Это улучшение в общей точности и общеуниверсальности может существенно повысить качество решений в сферах, где точное определение 3D-позы является
Abstract
Lifting-based methods for 3D Human Pose Estimation (HPE), which predict 3D
poses from detected 2D keypoints, often generalize poorly to new datasets and
real-world settings. To address this, we propose \emph{AugLift}, a simple yet
effective reformulation of the standard lifting pipeline that significantly
improves generalization performance without requiring additional data
collection or sensors. AugLift sparsely enriches the standard input -- the 2D
keypoint coordinates $(x, y)$ -- by augmenting it with a keypoint detection
confidence score $c$ and a corresponding depth estimate $d$. These additional
signals are computed from the image using off-the-shelf, pre-trained models
(e.g., for monocular depth estimation), thereby inheriting their strong
generalization capabilities. Importantly, AugLift serves as a modular add-on
and can be readily integrated into existing lifting architectures.
Our extensive experiments across four datasets demonstrate that AugLift
boosts cross-dataset performance on unseen datasets by an average of $10.1\%$,
while also improving in-distribution performance by $4.0\%$. These gains are
consistent across various lifting architectures, highlighting the robustness of
our method. Our analysis suggests that these sparse, keypoint-aligned cues
provide robust frame-level context, offering a practical way to significantly
improve the generalization of any lifting-based pose estimation model. Code
will be made publicly available.
Ссылки и действия
Дополнительные ресурсы: