Interpreting Time Series Forecasts with LIME and SHAP: A Case Study on the Air Passengers Dataset

2508.12253v1 cs.LG, cs.AI, stat.ME 2025-08-19
Авторы:

Manish Shukla

Резюме на русском

## Контекст Временные ряды являются основополагающим аспектом принятия решений в таких областях, как авиация, энергетика, розничная торговля и здравоохранение. Одним из ключевых вопросов в этой области является необходимость обеспечения прозрачности и интерпретируемости прогнозов. Автоматические модели временных рядов, такие как ARIMA, обладают хорошей интерпретируемостью благодаря их коэффициентам, однако структурные условия, на которых они основываются, не всегда могут ловко адаптироваться к нелинейным зависимостям. Машинное обучение, особенно в виде моделей, таких как XGBoost, предлагает высокую точность прогноза, но часто является "чёрным ящиком", в который входит процесс принятия решения. Из-за этого есть необходимость разработки методов, позволяющих объяснить прогнозы временных рядов, используя как модели анализа, так и методы интерпретации. ## Метод Для выполнения этой задачи была применена методология, объединяющая два основных подхода к объяснению прогнозов временных рядов: LIME (Local Interpretable Model-Agnostic Explanations) и SHAP (SHapley Additive exPlanations). В рамках этой работы, вспомогательные признаки, такие как значения в прошлом, а также сезонные кодировки, были внедрены в упрощенную версию проблемы, чтобы преобразовать её в супервизированную задачу. Использовалась модель градиентного бустинга с тем, чтобы предсказать значения временного ряда, а также настроена была модель ARIMA в качестве базового сравнения. Для каждой прогнозируемой точки были применены методы LIME и SHAP, чтобы понять, какие факторы влияют на прогноз, и для каких мест полученных прогнозов. ## Результаты Были проведены эксперименты с использованием данных Air Passengers, где было показано, что основной контрибьютор к прогнозам является признак, относящийся к прошлому году, а также сезонные кодировки. Для каждого прогноза можно было выявить, какие именно признаки были влиятельными, и понять, как они влияли на результат. Это было сделано с помощью SHAP, который распределил значимость каждого фактора в целом, и LIME, который предоставил детальную локальную интерпретацию. ## Значимость Результаты этого исследования имеют значительное значение для ряда приложений, включая авиацию, энергетику и розничную торговлю. Методы, предложенные в этой работе, позволяют улучшить прозрачность и доверие к моделям временных рядов. Это может привести к повышению уверенности в принятии решений и к улучшению понимания того, как прогнозы формируются. Также, применение LIME и SHAP может привести к открытию новых путей для использования интерпретации в работе с данными. ## Выводы Выводы, к которым пришли из этого

Abstract

Time-series forecasting underpins critical decisions across aviation, energy, retail and health. Classical autoregressive integrated moving average (ARIMA) models offer interpretability via coefficients but struggle with nonlinearities, whereas tree-based machine-learning models such as XGBoost deliver high accuracy but are often opaque. This paper presents a unified framework for interpreting time-series forecasts using local interpretable model-agnostic explanations (LIME) and SHapley additive exPlanations (SHAP). We convert a univariate series into a leakage-free supervised learning problem, train a gradient-boosted tree alongside an ARIMA baseline and apply post-hoc explainability. Using the Air Passengers dataset as a case study, we show that a small set of lagged features -- particularly the twelve-month lag -- and seasonal encodings explain most forecast variance. We contribute: (i) a methodology for applying LIME and SHAP to time series without violating chronology; (ii) theoretical exposition of the underlying algorithms; (iii) empirical evaluation with extensive analysis; and (iv) guidelines for practitioners.

Ссылки и действия

Связанные статьи

ProCause: Generating Counterfactual Outcomes to Evaluate Prescriptive Process Mo...

## Контекст Prescriptive Process Monitoring (PresPM) — это подполе Process Mining, которое сосредотачивается на оптимиза...

2025-09-05

Causal SHAP: Feature Attribution with Dependency Awareness through Causal Discov...

## Контекст Машинное обучение (ML) применяется все чаще в высокорисковых областях, таких как здравоохранение и финансы, ...

2025-09-05