ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
2508.04038v1
cs.CL, cs.CV
2025-08-09
Авторы:
Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
Резюме на русском
Отсутствие гибкости и интерпретируемости в существующих методах распознавания человеческих действий (HAR) чревато дорогостоящим переуправлением, когда внедряются новые действия или сенсорные устройства. Мы предлагаем ZARA — первый рамфрейм для нулевого-шота (zero-shot), способный распознавать действия напрямую из данных подвижности временных рядов, основываясь на автоматически создаваемой базе знаний о парах атрибутов и модуле навигации ресурсов. ZARA объединяет агентную систему, использующую технологии генеративных моделей языка (LLM), для решения задач HAR с помощью выбираемых функций и подробных выводов, обоснованных сенсорными данными. Мы проверили ZARA на 8 бенчмарках HAR и показали, что он делает более точные выводы с лучшим макро-F1-метрикой по сравнению со стандартными методами. Наши результаты подтверждают, что ZARA может стать промежуточным шагом к созданию доверительных, без вмешательства методов для анализа подвижности. Результаты доступны на GitHub.
Abstract
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework for zero-shot, explainable HAR directly
from raw motion time-series. ZARA integrates an automatically derived pair-wise
feature knowledge base that captures discriminative statistics for every
activity pair, a multi-sensor retrieval module that surfaces relevant evidence,
and a hierarchical agent pipeline that guides the LLM to iteratively select
features, draw on this evidence, and produce both activity predictions and
natural-language explanations. ZARA enables flexible and interpretable HAR
without any fine-tuning or task-specific classifiers. Extensive experiments on
8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering
clear reasoning while exceeding the strongest baselines by 2.53x in macro F1.
Ablation studies further confirm the necessity of each module, marking ZARA as
a promising step toward trustworthy, plug-and-play motion time-series analysis.
Our codes are available at https://github.com/zechenli03/ZARA.
Ссылки и действия
Дополнительные ресурсы: