Reinforcement Learning Driven Generalizable Feature Representation for Cross-User Activity Recognition
2509.01031v1
cs.LG, cs.AI, cs.HC
2025-09-05
Авторы:
Xiaozhou Ye, Kevin I-Kai Wang
Резюме на русском
## Контекст
Узкие места в системах Human Activity Recognition (HAR) часто возникают из-за существующей неоднородности в данных, происходящей в результате различий в движении, расположении датчиков и характеристиках физиологии субъектов. Эти различия создают значительные сложности для обучения моделей, которые должны обеспечить устойчивость производительности при работе с несвязанными пользователями. Обычные гиперпараметры, такие как классификаторы и кросс-валидация, часто разбиваются на пользователей или сессии, чтобы увеличить производительность на тестовой выборке. Однако именно это действие может многократно приводить к переобучению моделей, из-за чего они не могут работать должным образом в реальных условиях. Необходимо разработать новый подход, который избавит модели от переобучения и улучшит их общеуниверсальность при работе в разных условиях.
## Метод
Мы предлагаем Temporal-Preserving Reinforcement Learning Domain Generalization (TPRL-DG), новый подход, который изменяет подход к выявлению признаков, используя глубокое обучение. TPRL-DG работает на основе автокодирования временных последовательностей, обеспечивая устойчивость к переменным временным зависимостям. Это достигается с помощью Transformer-based autoregressive generator, который учитывает все взаимосвязи в потоке данных. Мы также применяем multi-objective reward function, которая оптимизирует и точность классификации, и уровень общей универсальности. Наша модель также не требует пользовательских метков для обучения, что делает ее более эффективной в реальном мире. Благодаря этому, мы создаем модель, которая может обучаться без дополнительных меток и обеспечивает устойчивость к пользовательским различиям.
## Результаты
Мы проверили нашу модель на двух стандартных датасетах HAR: DSADS и PAMAP2. Наши результаты показывают, что TPRL-DG превосходит другие существующие подходы в области HAR. Мы показали, что модель может обеспечить более высокую точность распознавания действий при работе в разных условиях, включая пользователей, с минимальным количеством предварительной настройки. Также мы отметили, что наш подход выделяется в способности сохранять поток данных во временном диапазоне, что значительно улучшает качество распознавания действий.
## Значимость
Мы показали, что TPRL-DG может применяться в различных сферах, таких как системы здоровья, фитнес-трекинг, а также в системы контекстного опознавания в смарт-домах. Модель обеспечивает эффективность при работе с несвязанными пользователями без необходимости использовать пользовательские метки. Это позволяет увеличить гибкость модели и уменьшить время настройки. Также наш подход может улучшить системы, требующие контекстного опознавани
Abstract
Human Activity Recognition (HAR) using wearable sensors is crucial for
healthcare, fitness tracking, and smart environments, yet cross-user
variability -- stemming from diverse motion patterns, sensor placements, and
physiological traits -- hampers generalization in real-world settings.
Conventional supervised learning methods often overfit to user-specific
patterns, leading to poor performance on unseen users. Existing domain
generalization approaches, while promising, frequently overlook temporal
dependencies or depend on impractical domain-specific labels. We propose
Temporal-Preserving Reinforcement Learning Domain Generalization (TPRL-DG), a
novel framework that redefines feature extraction as a sequential
decision-making process driven by reinforcement learning. TPRL-DG leverages a
Transformer-based autoregressive generator to produce temporal tokens that
capture user-invariant activity dynamics, optimized via a multi-objective
reward function balancing class discrimination and cross-user invariance. Key
innovations include: (1) an RL-driven approach for domain generalization, (2)
autoregressive tokenization to preserve temporal coherence, and (3) a
label-free reward design eliminating the need for target user annotations.
Evaluations on the DSADS and PAMAP2 datasets show that TPRL-DG surpasses
state-of-the-art methods in cross-user generalization, achieving superior
accuracy without per-user calibration. By learning robust, user-invariant
temporal patterns, TPRL-DG enables scalable HAR systems, facilitating
advancements in personalized healthcare, adaptive fitness tracking, and
context-aware environments.
Ссылки и действия
Дополнительные ресурсы: