Interpreting Time Series Forecasts with LIME and SHAP: A Case Study on the Air Passengers Dataset
2508.12253v1
cs.LG, cs.AI, stat.ME
2025-08-19
Авторы:
Manish Shukla
Резюме на русском
## Контекст
Временные ряды являются основополагающим аспектом принятия решений в таких областях, как авиация, энергетика, розничная торговля и здравоохранение. Одним из ключевых вопросов в этой области является необходимость обеспечения прозрачности и интерпретируемости прогнозов. Автоматические модели временных рядов, такие как ARIMA, обладают хорошей интерпретируемостью благодаря их коэффициентам, однако структурные условия, на которых они основываются, не всегда могут ловко адаптироваться к нелинейным зависимостям. Машинное обучение, особенно в виде моделей, таких как XGBoost, предлагает высокую точность прогноза, но часто является "чёрным ящиком", в который входит процесс принятия решения. Из-за этого есть необходимость разработки методов, позволяющих объяснить прогнозы временных рядов, используя как модели анализа, так и методы интерпретации.
## Метод
Для выполнения этой задачи была применена методология, объединяющая два основных подхода к объяснению прогнозов временных рядов: LIME (Local Interpretable Model-Agnostic Explanations) и SHAP (SHapley Additive exPlanations). В рамках этой работы, вспомогательные признаки, такие как значения в прошлом, а также сезонные кодировки, были внедрены в упрощенную версию проблемы, чтобы преобразовать её в супервизированную задачу. Использовалась модель градиентного бустинга с тем, чтобы предсказать значения временного ряда, а также настроена была модель ARIMA в качестве базового сравнения. Для каждой прогнозируемой точки были применены методы LIME и SHAP, чтобы понять, какие факторы влияют на прогноз, и для каких мест полученных прогнозов.
## Результаты
Были проведены эксперименты с использованием данных Air Passengers, где было показано, что основной контрибьютор к прогнозам является признак, относящийся к прошлому году, а также сезонные кодировки. Для каждого прогноза можно было выявить, какие именно признаки были влиятельными, и понять, как они влияли на результат. Это было сделано с помощью SHAP, который распределил значимость каждого фактора в целом, и LIME, который предоставил детальную локальную интерпретацию.
## Значимость
Результаты этого исследования имеют значительное значение для ряда приложений, включая авиацию, энергетику и розничную торговлю. Методы, предложенные в этой работе, позволяют улучшить прозрачность и доверие к моделям временных рядов. Это может привести к повышению уверенности в принятии решений и к улучшению понимания того, как прогнозы формируются. Также, применение LIME и SHAP может привести к открытию новых путей для использования интерпретации в работе с данными.
## Выводы
Выводы, к которым пришли из этого
Abstract
Time-series forecasting underpins critical decisions across aviation, energy,
retail and health. Classical autoregressive integrated moving average (ARIMA)
models offer interpretability via coefficients but struggle with
nonlinearities, whereas tree-based machine-learning models such as XGBoost
deliver high accuracy but are often opaque. This paper presents a unified
framework for interpreting time-series forecasts using local interpretable
model-agnostic explanations (LIME) and SHapley additive exPlanations (SHAP). We
convert a univariate series into a leakage-free supervised learning problem,
train a gradient-boosted tree alongside an ARIMA baseline and apply post-hoc
explainability. Using the Air Passengers dataset as a case study, we show that
a small set of lagged features -- particularly the twelve-month lag -- and
seasonal encodings explain most forecast variance. We contribute: (i) a
methodology for applying LIME and SHAP to time series without violating
chronology; (ii) theoretical exposition of the underlying algorithms; (iii)
empirical evaluation with extensive analysis; and (iv) guidelines for
practitioners.
Ссылки и действия
Дополнительные ресурсы: