BEDTime: A Unified Benchmark for Automatically Describing Time Series
2509.05215v1
cs.CL, cs.LG
2025-09-09
Авторы:
Medhasweta Sen, Zachary Gottesman, Jiaxing Qiu, C. Bayan Bruss, Nam Nguyen, Tom Hartvigsen
Резюме на русском
#### Контекст
В последние годы, автоматическое описание временных рядов с помощью естественного языка получило значительное внимание в академической и практической сферах. Это отражается в развитии широкого спектра моделей и методов, нацеленных на решение задач, таких как распознавание, выявление отличий и порождение естественного текста на основе временных рядов. Однако существуют значительные проблемы, связанные с отсутствием стандартизированных бенчмарков для оценки моделей. Доступные данные часто разбросаны по отдельным работам, а многие из них не предназначены для сравнительных экспериментов. Это ограничивает возможность объективного сравнения методов и трудности в изучении, какие модели лучше справляются с конкретными задачами. Данный работу направлен на создание стандартизированного метода оценки, который позволит провести сравнительный анализ и мотивировать развитие моделей с целью улучшения их полноты, семантического понимания и гибкости.
#### Метод
Мы предлагаем BEDTime (Benchmark for Evaluating the Description of Time series) — бенчмарк, который объединяет 4 существующих датасетов для 3 задач: распознавание (True/False вопросы-ответы), выявление отличий (множественный выбор) и порождение естественного текста (open-ended). Эти задачи позволяют оценивать модели по составному показателю — их способности анализировать, сравнивать и генерировать естественный язык на основе временных рядов. Мы использовали 13 моделей, включая лингвистические, визуально-лингвистические и специализированные на временных рядах. Эксперименты проводились с применением различных метрик, таких как точность распознавания, F1-меры и BLEU. Это позволило протестировать гибкость моделей и их возможность работать в различных областях применения.
#### Результаты
Результаты экспериментов показали, что популярные модели на основе лингвистических моделей (LLM) часто приобретают низкие результаты. В то же время, визуально-лингвистические модели (VLM) показали значительные достижения, что свидетельствует о значимости визуальных моделей для решения задач временных рядов. Однако модели с предустановленными мультимодальными моделями временных рядов и языка (Multimodal Time Series-Language Models) показали лучшие результаты, но всё же имеют большой потенциал для улучшения. Мы также выявили проблемы с точностью и устойчивостью моделей, особенно в ситуациях, требующих высокой точности и генеративных задач.
#### Значимость
BEDTime предлагает широкие возможности для стандартизации и сравнения моделей в области автоматического описания временных рядов. Это позволяет проводить эксперименты на разных видах задач, улучшать модели и расширять их возмо
Abstract
Many recent studies have proposed general-purpose foundation models designed
for a variety of time series analysis tasks. While several established datasets
already exist for evaluating these models, previous works frequently introduce
their models in conjunction with new datasets, limiting opportunities for
direct, independent comparisons and obscuring insights into the relative
strengths of different methods. Additionally, prior evaluations often cover
numerous tasks simultaneously, assessing a broad range of model abilities
without clearly pinpointing which capabilities contribute to overall
performance. To address these gaps, we formalize and evaluate 3 tasks that test
a model's ability to describe time series using generic natural language: (1)
recognition (True/False question-answering), (2) differentiation (multiple
choice question-answering), and (3) generation (open-ended natural language
description). We then unify 4 recent datasets to enable head-to-head model
comparisons on each task. Experimentally, in evaluating 13 state-of-the-art
language, vision--language, and time series--language models, we find that (1)
popular language-only methods largely underperform, indicating a need for time
series-specific architectures, (2) VLMs are quite successful, as expected,
identifying the value of vision models for these tasks and (3) pretrained
multimodal time series--language models successfully outperform LLMs, but still
have significant room for improvement. We also find that all approaches exhibit
clear fragility in a range of robustness tests. Overall, our benchmark provides
a standardized evaluation on a task necessary for time series reasoning
systems.
Ссылки и действия
Дополнительные ресурсы: