VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Visual Backbones
2508.04379v1
cs.CV, cs.LG
2025-08-09
Авторы:
Lefei Shen, Mouxiang Chen, Xu Liu, Han Fu, Xiaoxue Ren, Jianling Sun, Zhuo Li, Chenghao Liu
Резюме на русском
**Резюме**
В данном исследовании предлагается VisionTS++ — кросс-модальная фундаментальная модель для временных рядов, основанная на визуальных моделях. Несмотря на то, что визуальные модели, предварительно обученные на изображениях, показали способность решать задачи прогнозирования временных рядов, передача кросс-модальной информации возникают трудности из-за трех ключевых различий: (1) различия между структурированными изображениями и неструктурированными временными рядами; (2) различия между моделями визуальных данных трех-канального RGB-формата и необходимостью моделировать временные ряды с произвольным числом признаков; (3) различия между детерминированным выводом визуальных моделей и необходимостью прогнозировать распределения с обоснованным уровнем неопределенности. Для решения этих проблем, VisionTS++ предлагает тройной подход: (1) визуальный механизм фильтрации для выявления высококачественных временных рядов, (2) метод преобразования временных рядов в RGB-изображения с несколькими подкартинками для представления зависимостей между признаками, (3) многоквантильный прогнозный подход, использующий множество реконструкционных задач для гибкого прогнозирования различных квантилей. Тесты на различных задачах прогнозирования показали, что VisionTS++ превосходит специализированные модели на 6%–44% по метрике MSE и занимает первое место в 9 из 12 сценариев прогнозирования. Это работа устанавливает новый парадигму для кросс-модальных передачи знаний, двигая вперед развитие универсальных моделей для прогнозирования временных рядов.
Abstract
Recent studies have revealed that vision models pre-trained on images can
perform well in time series forecasting by reformulating forecasting as an
image reconstruction task, suggesting their potential as universal time series
foundation models. However, effective cross-modal transfer from vision to time
series remains challenging due to three key discrepancies: (1) data-modality
gap between structured, bounded image data and unbounded, heterogeneous time
series; (2) multivariate-forecasting gap between standard RGB
three-channel-based vision models and the need to model time series with
arbitrary numbers of variates; and (3) probabilistic-forecasting gap between
the deterministic output formats of most vision models and the requirement for
uncertainty-aware probabilistic predictions. To bridge these gaps, we propose
VisionTS++, a vision-model-based TSFM that performs continual pre-training on
large-scale time series datasets, including 3 innovations: (1) a
vision-model-based filtering mechanism to identify high-quality time series
data, thereby mitigating modality gap and improving pre-training stability, (2)
a colorized multivariate conversion method that transforms multivariate time
series into multi-subfigure RGB images, capturing complex inter-variate
dependencies; and (3) a multi-quantile forecasting approach using parallel
reconstruction heads to generate forecasts of different quantile levels, thus
more flexibly approximating arbitrary output distributions without restrictive
prior distributional assumptions. Evaluated on both in-distribution and
out-of-distribution TSF benchmarks, \model achieves SOTA results, outperforming
specialized TSFMs by 6%-44% in MSE reduction and ranking first in 9 out of 12
probabilistic forecasting settings. Our work establishes a new paradigm for
cross-modal knowledge transfer, advancing the development of universal TSFMs.
Ссылки и действия
Дополнительные ресурсы: