BaroPoser: Real-time Human Motion Tracking from IMUs and Barometers in Everyday Devices

2508.03313v1 cs.CV, cs.AI 2025-08-06
Авторы:

Libo Zhang, Xinyu Yi, Feng Xu

Резюме на русском

**Резюме:** Отслеживание человеческого движения с использованием данных из IMU-датчиков, встроенных в повседневные устройства, такие как смартфоны и смартчасы, становится все более популярным. Однако существующие методы сталкиваются с проблемами точности оценки позы, особенно на неровной местности, из-за недостаточной плотности данных и отсутствия соответствующих наборов данных. Для решения этой проблемы, авторы представляют метод BaroPoser, который использует сочетание данных IMU и барометрических датчиков, записанных со смартфона и смартчасами. Барометрические данные позволяют оценивать изменения высоты датчиков, что улучшает точность оценки позы и позволяет предсказывать глобальные изменения положения на неровной местности. Кроме того, авторы предлагают локальную систему координат бедра для разделения локальных и глобальных компонентов движения, что улучшает обучение модели. Результаты экспериментов на общедоступных датасетах и реальных записях показывают, что BaroPoser превосходит современные методы, основанные только на IMU, при использовании той же аппаратной конфигурации.

Abstract

In recent years, tracking human motion using IMUs from everyday devices such as smartphones and smartwatches has gained increasing popularity. However, due to the sparsity of sensor measurements and the lack of datasets capturing human motion over uneven terrain, existing methods often struggle with pose estimation accuracy and are typically limited to recovering movements on flat terrain only. To this end, we present BaroPoser, the first method that combines IMU and barometric data recorded by a smartphone and a smartwatch to estimate human pose and global translation in real time. By leveraging barometric readings, we estimate sensor height changes, which provide valuable cues for both improving the accuracy of human pose estimation and predicting global translation on non-flat terrain. Furthermore, we propose a local thigh coordinate frame to disentangle local and global motion input for better pose representation learning. We evaluate our method on both public benchmark datasets and real-world recordings. Quantitative and qualitative results demonstrate that our approach outperforms the state-of-the-art (SOTA) methods that use IMUs only with the same hardware configuration.

Ссылки и действия