Evaluation of Stress Detection as Time Series Events -- A Novel Window-Based F1-Metric
2509.03240v1
cs.LG, cs.AI, stat.ME
2025-09-05
Авторы:
Harald Vilhelm Skat-Rørdam, Sneha Das, Kathrine Sofie Rasmussen, Nicole Nadine Lønfeldt, Line Clemmensen
Резюме на русском
## Контекст
Во внешних (in-the-wild) средах, таких как мониторинг стресса с помощью внешшерстных устройств, актуальным является достоверное оценивание детекции событий во временных рядах. Однако, в таких условиях, аннотации получаются в виде отдельных точечных событий, несмотря на то, что исходные явления происходят гладко и динамически. Это приводит к несоответствию между аннотацией и действительностью. Оценка моделей детекции стресса часто базируется на метриках F1 или F1$_{pa}$, которые не учитывают характер гладкого распределения событий во временной шкале. Это приводит к неточной оценке модели и, по следствию, недостаточной надежности решений. Необходимо разработать более точные метрики, которые учитывают размерность времени и позволяют более точно оценивать модели.
## Метод
Для решения проблемы был разработан новый метрический подход для оценки детекции событий в временных рядах. Метрика F1$_w$ (window-based F1) включает терпимость к временной погрешности, что позволяет лучше оценить работу модели, не прибегая к идеальному соответствию точечной аннотации. Метрика F1$_w$ применяет окно времени, в рамках которого терпима неточность во времени. Это окно может быть настроено в соответствии с требованиями конкретной области исследований. Таким образом, модель оценивается не только по точности, но и по способности локализировать события в рамках временной шкалы.
## Результаты
Оценка поведения модели проводилась на трех физиологических датасетах: ADARP и Wrist Angel (in-the-wild), а также на ROAD (экспериментальный). На всех датасетах было замечено, что F1$_w$ дает более точное представление о реальной силе модели, чем F1 и F1$_{pa}$. Эти результаты были подтверждены статистическими вычислениями, показавшими статистически значимый выигрыш F1$_w$ над стандартными метриками. Было продемонстрировано, что F1$_w$ позволяет оценивать модели более точно, предоставляя более полную картину их производительности, которая невидима при использовании F1.
## Значимость
Результаты показывают, что F1$_w$ может использоваться в различных областях, включая мониторинг стресса, детекцию инфаркта миокарда и другие задачи в здравоохранении, где временная точность важна, но не всегда достижима. Эта метрика позволяет избежать переоценки модели, когда распределение событий во временной шкале имеет более гладкий характер. Благодаря возможности настройки окна времени, F1$_w$ может быть применена в различных сферах, где требуется более точная и практичная оценка моделей.
## Выводы
Разработанная метрика F1$_w$ предоставляет более точную и практичную
Abstract
Accurate evaluation of event detection in time series is essential for
applications such as stress monitoring with wearable devices, where ground
truth is typically annotated as single-point events, even though the underlying
phenomena are gradual and temporally diffused. Standard metrics like F1 and
point-adjusted F1 (F1$_{pa}$) often misrepresent model performance in such
real-world, imbalanced datasets. We introduce a window-based F1 metric (F1$_w$)
that incorporates temporal tolerance, enabling a more robust assessment of
event detection when exact alignment is unrealistic. Empirical analysis in
three physiological datasets, two in-the-wild (ADARP, Wrist Angel) and one
experimental (ROAD), indicates that F1$_w$ reveals meaningful model performance
patterns invisible to conventional metrics, while its window size can be
adapted to domain knowledge to avoid overestimation. We show that the choice of
evaluation metric strongly influences the interpretation of model performance:
using predictions from TimesFM, only our temporally tolerant metrics reveal
statistically significant improvements over random and null baselines in the
two in-the-wild use cases. This work addresses key gaps in time series
evaluation and provides practical guidance for healthcare applications where
requirements for temporal precision vary by context.
Ссылки и действия
Дополнительные ресурсы: