CauKer: classification time series foundation models can be pretrained on synthetic data only

2508.02879v2 cs.LG, cs.AI 2025-08-09

Авторы:

Shifeng Xie, Vasilii Feofanov, Marius Alonso, Ambroise Odonnat, Jianfeng Zhang, Themis Palpanas, Ievgen Redko

Резюме на русском

Многие time series foundation models (TSFMs) требуют дорогостоящую и вычислительно трудоемкую процедуру предобучения на больших коллекциях реальных временных рядов, что ограничивает их применение. В статье предлагается CauKer — алгоритм для генерации синтетических временных рядов, обладающих реалистичными трендами, сезонностью и нелинейными взаимодействиями. CauKer основывается на композиции гауссовых процессов и структурных каузальных моделей, обеспечивая высокую разнообразность и приросту данных. Эксперименты показали, что CauKer-generated datasets следуют четким законам масштабирования как по объему данных (от 10 тысяч до 10 миллионов примеров), так и по моделируемой модели (от 1 миллиона до 783 миллионов параметров). Вывод: синтетические данные, генерируемые CauKer, эффективно заменяют реальные для выгодного предобучения TSFMs, улучшая их масштабируемость и экономию ресурсов.

Abstract

Time series foundation models (TSFMs) have recently gained significant attention due to their strong zero-shot capabilities and widespread real-world applications. Such models typically require a computationally costly pretraining on large-scale, carefully curated collections of real-world sequences. To allow for a sample-efficient pretraining of TSFMs, we propose CauKer, a novel algorithm designed to generate diverse, causally coherent synthetic time series with realistic trends, seasonality, and nonlinear interactions. CauKer combines Gaussian Process (GP) kernel composition with Structural Causal Models (SCM) to produce data for sample-efficient pretraining of state-of-the-art classification TSFMs having different architectures and following different pretraining approaches. Additionally, our experiments reveal that CauKer-generated datasets exhibit clear scaling laws for both dataset size (10K to 10M samples) and model capacity (1M to 783M parameters), unlike real-world datasets, which display irregular scaling behavior.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CauKer: classification time series foundation models can be pretrained on synthetic data only

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация