CauKer: classification time series foundation models can be pretrained on synthetic data only

2508.02879v2 cs.LG, cs.AI 2025-08-09
Авторы:

Shifeng Xie, Vasilii Feofanov, Marius Alonso, Ambroise Odonnat, Jianfeng Zhang, Themis Palpanas, Ievgen Redko

Резюме на русском

Многие time series foundation models (TSFMs) требуют дорогостоящую и вычислительно трудоемкую процедуру предобучения на больших коллекциях реальных временных рядов, что ограничивает их применение. В статье предлагается CauKer — алгоритм для генерации синтетических временных рядов, обладающих реалистичными трендами, сезонностью и нелинейными взаимодействиями. CauKer основывается на композиции гауссовых процессов и структурных каузальных моделей, обеспечивая высокую разнообразность и приросту данных. Эксперименты показали, что CauKer-generated datasets следуют четким законам масштабирования как по объему данных (от 10 тысяч до 10 миллионов примеров), так и по моделируемой модели (от 1 миллиона до 783 миллионов параметров). Вывод: синтетические данные, генерируемые CauKer, эффективно заменяют реальные для выгодного предобучения TSFMs, улучшая их масштабируемость и экономию ресурсов.

Abstract

Time series foundation models (TSFMs) have recently gained significant attention due to their strong zero-shot capabilities and widespread real-world applications. Such models typically require a computationally costly pretraining on large-scale, carefully curated collections of real-world sequences. To allow for a sample-efficient pretraining of TSFMs, we propose CauKer, a novel algorithm designed to generate diverse, causally coherent synthetic time series with realistic trends, seasonality, and nonlinear interactions. CauKer combines Gaussian Process (GP) kernel composition with Structural Causal Models (SCM) to produce data for sample-efficient pretraining of state-of-the-art classification TSFMs having different architectures and following different pretraining approaches. Additionally, our experiments reveal that CauKer-generated datasets exhibit clear scaling laws for both dataset size (10K to 10M samples) and model capacity (1M to 783M parameters), unlike real-world datasets, which display irregular scaling behavior.

Ссылки и действия