Reinforcement Learning Driven Generalizable Feature Representation for Cross-User Activity Recognition

2509.01031v1 cs.LG, cs.AI, cs.HC 2025-09-05
Авторы:

Xiaozhou Ye, Kevin I-Kai Wang

Резюме на русском

## Контекст Узкие места в системах Human Activity Recognition (HAR) часто возникают из-за существующей неоднородности в данных, происходящей в результате различий в движении, расположении датчиков и характеристиках физиологии субъектов. Эти различия создают значительные сложности для обучения моделей, которые должны обеспечить устойчивость производительности при работе с несвязанными пользователями. Обычные гиперпараметры, такие как классификаторы и кросс-валидация, часто разбиваются на пользователей или сессии, чтобы увеличить производительность на тестовой выборке. Однако именно это действие может многократно приводить к переобучению моделей, из-за чего они не могут работать должным образом в реальных условиях. Необходимо разработать новый подход, который избавит модели от переобучения и улучшит их общеуниверсальность при работе в разных условиях. ## Метод Мы предлагаем Temporal-Preserving Reinforcement Learning Domain Generalization (TPRL-DG), новый подход, который изменяет подход к выявлению признаков, используя глубокое обучение. TPRL-DG работает на основе автокодирования временных последовательностей, обеспечивая устойчивость к переменным временным зависимостям. Это достигается с помощью Transformer-based autoregressive generator, который учитывает все взаимосвязи в потоке данных. Мы также применяем multi-objective reward function, которая оптимизирует и точность классификации, и уровень общей универсальности. Наша модель также не требует пользовательских метков для обучения, что делает ее более эффективной в реальном мире. Благодаря этому, мы создаем модель, которая может обучаться без дополнительных меток и обеспечивает устойчивость к пользовательским различиям. ## Результаты Мы проверили нашу модель на двух стандартных датасетах HAR: DSADS и PAMAP2. Наши результаты показывают, что TPRL-DG превосходит другие существующие подходы в области HAR. Мы показали, что модель может обеспечить более высокую точность распознавания действий при работе в разных условиях, включая пользователей, с минимальным количеством предварительной настройки. Также мы отметили, что наш подход выделяется в способности сохранять поток данных во временном диапазоне, что значительно улучшает качество распознавания действий. ## Значимость Мы показали, что TPRL-DG может применяться в различных сферах, таких как системы здоровья, фитнес-трекинг, а также в системы контекстного опознавания в смарт-домах. Модель обеспечивает эффективность при работе с несвязанными пользователями без необходимости использовать пользовательские метки. Это позволяет увеличить гибкость модели и уменьшить время настройки. Также наш подход может улучшить системы, требующие контекстного опознавани

Abstract

Human Activity Recognition (HAR) using wearable sensors is crucial for healthcare, fitness tracking, and smart environments, yet cross-user variability -- stemming from diverse motion patterns, sensor placements, and physiological traits -- hampers generalization in real-world settings. Conventional supervised learning methods often overfit to user-specific patterns, leading to poor performance on unseen users. Existing domain generalization approaches, while promising, frequently overlook temporal dependencies or depend on impractical domain-specific labels. We propose Temporal-Preserving Reinforcement Learning Domain Generalization (TPRL-DG), a novel framework that redefines feature extraction as a sequential decision-making process driven by reinforcement learning. TPRL-DG leverages a Transformer-based autoregressive generator to produce temporal tokens that capture user-invariant activity dynamics, optimized via a multi-objective reward function balancing class discrimination and cross-user invariance. Key innovations include: (1) an RL-driven approach for domain generalization, (2) autoregressive tokenization to preserve temporal coherence, and (3) a label-free reward design eliminating the need for target user annotations. Evaluations on the DSADS and PAMAP2 datasets show that TPRL-DG surpasses state-of-the-art methods in cross-user generalization, achieving superior accuracy without per-user calibration. By learning robust, user-invariant temporal patterns, TPRL-DG enables scalable HAR systems, facilitating advancements in personalized healthcare, adaptive fitness tracking, and context-aware environments.

Ссылки и действия