CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
2509.04699v2
cs.LG, eess.SP
2025-09-09
Авторы:
Wenhui Cui, Christopher Sandino, Hadi Pouransari, Ran Liu, Juri Minxha, Ellen Zippi, Aman Verma, Anna Sedlackova, Erdrin Azemi, Behrooz Mahasseni
Резюме на русском
## Контекст
Современные технологии в области биоинформатики и силовых интерфейсов позволяют использовать электромиографию (EMG) для распознавания жестов и моторных команд. Данный подход обладает высокой точностью распознавания, особенно при использовании качественных, структурированных данных, таких как видео, изображения или 3D-скелеты рук. Однако, применение таких данных требует высокоэффективных вычислительных систем и недоступно для небольших, энергонезависимых устройств, таких как портативные смарт-шлемы или телефоны. В то же время, энергоэффективные модели, работающие с низкокачественными биосигналами, часто имеют ограниченную точность и широкое применение. В этом исследовании мы исследуем возможность генерализации моделей, основанных на EMG, с использованием улучшенных методов предобучения.
## Метод
Мы предлагаем Contrastive Pose-EMG Pre-training (CPEP), рамформу, которая использует вспомогательные данные, такие как позы рук, для предобучения эмбеддингов EMG. Метод включает в себя два этапа: 1) обучение модели, которая генерирует высококачественные репрезентации EMG, информативные для поз, и 2) создание потенциальных классов для новых жестов, используя эти представления. Мы используем несколько оптимизаторов и архитектур, включая трансформеры для поз, чтобы улучшить точность и общую гибкость модели. Для эффективности обучения вводится механизм построения потенциальных классов для новых жестов, а также методы уменьшения размерности.
## Результаты
Мы провели эксперименты на двух наборах данных: 1) базе данных с эмбеддингами EMG и поз, полученных в рамках жестов символов римского алфавита, и 2) базе данных с эмбеддингами EMG и поз, полученных в рамках жестов символов русского алфавита. Мы сравнивали нашу модель с несколькими библиотеками, включая EMG2Pose и другие. Результаты показали, что CPEP показала более высокую точность в линейной классификации и нулевой-слойной классификации в сравнении с другими моделями. В частности, в линейной классификации на римских символах, мы достигли 21% высокой точности, а в нулевой-слойной классификации на русских символах — 72% высокой точности.
## Значимость
Наш подход может иметь большое значение в многих областях, включая управление роботами, синтез речи и помощь пользователям с ограниченными физическими возможностями. Улучшенная точность в нулевой-слойной классификации на новых жстах позволяет расширить возможности приложений, таких как смарт-шлемы, контрольные жесты на биосигналах, и дистанционное управление. М
Abstract
Hand gesture classification using high-quality structured data such as
videos, images, and hand skeletons is a well-explored problem in computer
vision. Leveraging low-power, cost-effective biosignals, e.g. surface
electromyography (sEMG), allows for continuous gesture prediction on wearables.
In this paper, we demonstrate that learning representations from weak-modality
data that are aligned with those from structured, high-quality data can improve
representation quality and enables zero-shot classification. Specifically, we
propose a Contrastive Pose-EMG Pre-training (CPEP) framework to align EMG and
pose representations, where we learn an EMG encoder that produces high-quality
and pose-informative representations. We assess the gesture classification
performance of our model through linear probing and zero-shot setups. Our model
outperforms emg2pose benchmark models by up to 21% on in-distribution gesture
classification and 72% on unseen (out-of-distribution) gesture classification.
Ссылки и действия
Дополнительные ресурсы: