CauKer: classification time series foundation models can be pretrained on synthetic data only
2508.02879v2
cs.LG, cs.AI
2025-08-09
Авторы:
Shifeng Xie, Vasilii Feofanov, Marius Alonso, Ambroise Odonnat, Jianfeng Zhang, Themis Palpanas, Ievgen Redko
Резюме на русском
Многие time series foundation models (TSFMs) требуют дорогостоящую и вычислительно трудоемкую процедуру предобучения на больших коллекциях реальных временных рядов, что ограничивает их применение. В статье предлагается CauKer — алгоритм для генерации синтетических временных рядов, обладающих реалистичными трендами, сезонностью и нелинейными взаимодействиями. CauKer основывается на композиции гауссовых процессов и структурных каузальных моделей, обеспечивая высокую разнообразность и приросту данных. Эксперименты показали, что CauKer-generated datasets следуют четким законам масштабирования как по объему данных (от 10 тысяч до 10 миллионов примеров), так и по моделируемой модели (от 1 миллиона до 783 миллионов параметров). Вывод: синтетические данные, генерируемые CauKer, эффективно заменяют реальные для выгодного предобучения TSFMs, улучшая их масштабируемость и экономию ресурсов.
Abstract
Time series foundation models (TSFMs) have recently gained significant
attention due to their strong zero-shot capabilities and widespread real-world
applications. Such models typically require a computationally costly
pretraining on large-scale, carefully curated collections of real-world
sequences. To allow for a sample-efficient pretraining of TSFMs, we propose
CauKer, a novel algorithm designed to generate diverse, causally coherent
synthetic time series with realistic trends, seasonality, and nonlinear
interactions. CauKer combines Gaussian Process (GP) kernel composition with
Structural Causal Models (SCM) to produce data for sample-efficient pretraining
of state-of-the-art classification TSFMs having different architectures and
following different pretraining approaches. Additionally, our experiments
reveal that CauKer-generated datasets exhibit clear scaling laws for both
dataset size (10K to 10M samples) and model capacity (1M to 783M parameters),
unlike real-world datasets, which display irregular scaling behavior.
Ссылки и действия
Дополнительные ресурсы: