Empowering Time Series Forecasting with LLM-Agents

2508.04231v1 cs.LG, cs.AI 2025-08-09
Авторы:

Chin-Chia Michael Yeh, Vivian Lai, Uday Singh Saini, Xiran Fan, Yujie Fan, Junpeng Wang, Xin Dai, Yan Zheng

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы прогнозирование временных рядов стало ключевой задачей в различных прикладных областях, от финансовых прогнозов до управления трафиком. Однако традиционные подходы к автоматизации машинного обучения (AutoML) в этой области часто сосредоточены на поиске оптимальных моделей и автоматизации функционального поиска. Несмотря на значительные успехи, эти подходы имеют ограничения, особенно когда речь заходит о качестве данных. Действительно, существующие методы часто игнорируют важность улучшения качества входных данных, которое может иметь значительное влияние на прогнозную точность. В частности, временные ряды часто содержат шум, пропуски и другие аномалии, которые могут существенно повлиять на результаты прогнозирования. Более того, многие модели, особенно легковесные, могут достигать высокой точности, если данные предварительно обработаны и оптимизированы. Это привело к интересу к даноцентрическим подходам, которые стремятся улучшить качество данных вместо того, чтобы фокусироваться исключительно на моделях. В этой статье авторы предлагают исследовать возможности даноцентрического подхода для прогнозирования временных рядов, используя метаданные для оптимизации процесса очистки и подготовки данных. Их целью является разработка агента, который может эффективно использовать метаданные для повышения качества данных и, в конечном счете, улучшить прогнозную точность. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют DCATS (Data-Centric Agent for Time Series), инновационный агент, разработанный для оптимизации прогнозирования временных рядов путем фокусирования на качестве данных. DCATS использует метаданные, которые часто сопровождают временные ряды, для выполнения двух основных задач: очистка данных и оптимизация прогнозирования. Методология DCATS включает в себя несколько этапов. Во-первых, агент анализирует метаданные, такие как метаданные о шуме, пропусках и статистических характеристиках данных. На основе этого анализа он выполняет очистку данных, удаляя или корректируя ненужные или поврежденные части временных рядов. Во-вторых, DCATS использует оптимизированные данные для обучения и тестирования четырех различных моделей прогнозирования временных рядов. Эти модели включают в себя как традиционные, так и более современные подходы к прогнозированию. Затем, используя результаты этих моделей, DCATS выполняет дополнительную оптимизацию, настраивая процесс прогнозирования для достижения наилучших результатов. Архитектура DCATS основана на использовании Large Language Model (LLM) powered agents, которые выполняют роль "планировщиков" в процессе автоматизации. Эти агенты используют естественный язык для взаимодействия с данными и моделями, что позволяет им эффективно выполнять сложные задачи по очистке и оптимизации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности DCATS авторы провели эксперименты на большом наборе данных по прогнозированию объемов трафика. Этот набор данных включает в себя различные временные ряды с различными характеристиками, что делает его идеальным для тестирования даноцентрических подходов. В эксперименте были использованы четыре модели прогнозирования временных рядов. Результаты показали, что DCATS достигает среднего уменьшения ошибки прогнозирования на 6% по сравнению с традиционными подходами. Это улучшение было наблюдаемым на различных временных горизонтах, что подтверждает универсальность и эффективность данного подхода. Кроме того, авторы продемонстрировали, что DCATS может адаптироваться к различным типам данных и моделей, что делает его универсальным инструментом для различных задач прогнозирования временных рядов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость DCATS лежит в том, что он предлагает новый подход к прогнозированию временных рядов, который фокусируется на качестве данных вместо моделей. Это может быть особенно полезно в ситуациях, когда данные содержат шум или пропуски, что является распространенной проблемой в реальных данных. Кроме того, DCATS может быть использован в различных приложениях, таких как управление трафиком, финансовые прогнозы и прогнозирование погоды. Его универсальность и способность адаптироваться к различным типам данных делают его привлекательным для различных секторов индустрии. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, DCATS представляет собой важный шаг вперед в области прогнозирования временных рядов. Использование даноцентрического подхода позволяет улучшить качество данных и, как следствие, повысить точность прогнозов. Результаты экспериментов показывают, что этот подход может быть эффективен в различных контекстах и может быть применен в различных областях. В будущем, авторы планируют продолжить исследование DCATS, включая эксперименты на более разнообразных наборах данных и моделях. Они также планируют исследовать возможности интеграции DCATS с другими AutoML системами для дальнейшего улучшения прогнозной точности.

Abstract

Large Language Model (LLM) powered agents have emerged as effective planners for Automated Machine Learning (AutoML) systems. While most existing AutoML approaches focus on automating feature engineering and model architecture search, recent studies in time series forecasting suggest that lightweight models can often achieve state-of-the-art performance. This observation led us to explore improving data quality, rather than model architecture, as a potentially fruitful direction for AutoML on time series data. We propose DCATS, a Data-Centric Agent for Time Series. DCATS leverages metadata accompanying time series to clean data while optimizing forecasting performance. We evaluated DCATS using four time series forecasting models on a large-scale traffic volume forecasting dataset. Results demonstrate that DCATS achieves an average 6% error reduction across all tested models and time horizons, highlighting the potential of data-centric approaches in AutoML for time series forecasting.

Ссылки и действия