Evaluation of Stress Detection as Time Series Events -- A Novel Window-Based F1-Metric

2509.03240v1 cs.LG, cs.AI, stat.ME 2025-09-05

Авторы:

Harald Vilhelm Skat-Rørdam, Sneha Das, Kathrine Sofie Rasmussen, Nicole Nadine Lønfeldt, Line Clemmensen

Резюме на русском

## Контекст Во внешних (in-the-wild) средах, таких как мониторинг стресса с помощью внешшерстных устройств, актуальным является достоверное оценивание детекции событий во временных рядах. Однако, в таких условиях, аннотации получаются в виде отдельных точечных событий, несмотря на то, что исходные явления происходят гладко и динамически. Это приводит к несоответствию между аннотацией и действительностью. Оценка моделей детекции стресса часто базируется на метриках F1 или F1$_{pa}$, которые не учитывают характер гладкого распределения событий во временной шкале. Это приводит к неточной оценке модели и, по следствию, недостаточной надежности решений. Необходимо разработать более точные метрики, которые учитывают размерность времени и позволяют более точно оценивать модели. ## Метод Для решения проблемы был разработан новый метрический подход для оценки детекции событий в временных рядах. Метрика F1$_w$ (window-based F1) включает терпимость к временной погрешности, что позволяет лучше оценить работу модели, не прибегая к идеальному соответствию точечной аннотации. Метрика F1$_w$ применяет окно времени, в рамках которого терпима неточность во времени. Это окно может быть настроено в соответствии с требованиями конкретной области исследований. Таким образом, модель оценивается не только по точности, но и по способности локализировать события в рамках временной шкалы. ## Результаты Оценка поведения модели проводилась на трех физиологических датасетах: ADARP и Wrist Angel (in-the-wild), а также на ROAD (экспериментальный). На всех датасетах было замечено, что F1$_w$ дает более точное представление о реальной силе модели, чем F1 и F1$_{pa}$. Эти результаты были подтверждены статистическими вычислениями, показавшими статистически значимый выигрыш F1$_w$ над стандартными метриками. Было продемонстрировано, что F1$_w$ позволяет оценивать модели более точно, предоставляя более полную картину их производительности, которая невидима при использовании F1. ## Значимость Результаты показывают, что F1$_w$ может использоваться в различных областях, включая мониторинг стресса, детекцию инфаркта миокарда и другие задачи в здравоохранении, где временная точность важна, но не всегда достижима. Эта метрика позволяет избежать переоценки модели, когда распределение событий во временной шкале имеет более гладкий характер. Благодаря возможности настройки окна времени, F1$_w$ может быть применена в различных сферах, где требуется более точная и практичная оценка моделей. ## Выводы Разработанная метрика F1$_w$ предоставляет более точную и практичную

Abstract

Accurate evaluation of event detection in time series is essential for applications such as stress monitoring with wearable devices, where ground truth is typically annotated as single-point events, even though the underlying phenomena are gradual and temporally diffused. Standard metrics like F1 and point-adjusted F1 (F1$_{pa}$) often misrepresent model performance in such real-world, imbalanced datasets. We introduce a window-based F1 metric (F1$_w$) that incorporates temporal tolerance, enabling a more robust assessment of event detection when exact alignment is unrealistic. Empirical analysis in three physiological datasets, two in-the-wild (ADARP, Wrist Angel) and one experimental (ROAD), indicates that F1$_w$ reveals meaningful model performance patterns invisible to conventional metrics, while its window size can be adapted to domain knowledge to avoid overestimation. We show that the choice of evaluation metric strongly influences the interpretation of model performance: using predictions from TimesFM, only our temporally tolerant metrics reveal statistically significant improvements over random and null baselines in the two in-the-wild use cases. This work addresses key gaps in time series evaluation and provides practical guidance for healthcare applications where requirements for temporal precision vary by context.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Evaluation of Stress Detection as Time Series Events -- A Novel Window-Based F1-Metric

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CafeMed: Causal Attention Fusion Enhanced Medication Recommendation

An Open-Access Benchmark of Statistical and Machine-Learning Anomaly Detection M...

On the Granularity of Causal Effect Identifiability

ProCause: Generating Counterfactual Outcomes to Evaluate Prescriptive Process Mo...

Causal SHAP: Feature Attribution with Dependency Awareness through Causal Discov...

Навигация