*差分自回归移动平均模型(ARIMA)
差分自回归移动平均模型(ARIMA)
1. 模型组成
ARIMA模型结合了 自回归(AR)、差分(I) 和 移动平均(MA) 三种方法,用于分析和预测非平稳时间序列数据。
(1) 自回归(AR)
- 定义:利用时间序列自身的滞后值预测当前值。
- 公式:
Y t = c + ϕ 1 Y t − 1 + ϕ 2 Y t − 2 + ⋯ + ϕ p Y t − p + ϵ t Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \dots + \phi_p Y_{t-p} + \epsilon_t Yt=c+ϕ1Yt−1+ϕ2Yt−2+⋯+ϕpYt−p+ϵt- Y t Y_t Yt: 当前时刻值。
- ϕ 1 , ϕ 2 , … , ϕ p \phi_1, \phi_2, \dots, \phi_p ϕ1,ϕ2,…,ϕp: 自回归系数。
- p p p: 自回归阶数(AR阶数)。
- ϵ t \epsilon_t ϵt: 白噪声误差项。
(2) 差分(I)
- 定义:对原始序列进行差分,消除趋势和季节性,使其平稳。
- 公式:
Δ d Y t = Y t − Y t − d \Delta^d Y_t = Y_t - Y_{t-d} ΔdYt=Yt−Yt−d- ( d ): 差分阶数(如一阶差分 ( d=1 ))。
(3) 移动平均(MA)
- 定义:利用历史误差修正当前预测值。
- 公式:
Y t = μ + ϵ t + θ 1 ϵ t − 1 + θ 2 ϵ t − 2 + ⋯ + θ q ϵ t − q Y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \dots + \theta_q \epsilon_{t-q} Yt=μ+ϵt+θ1ϵt−1+θ2ϵt−2+⋯+θqϵt−q- θ 1 , θ 2 , … , θ q \theta_1, \theta_2, \dots, \theta_q θ1,θ2,…,θq: 移动平均系数。
- q q q: 移动平均阶数(MA阶数)。
2. ARIMA模型的完整形式
- 数学表达式:
ARIMA ( p , d , q ) \text{ARIMA}(p, d, q) ARIMA(p,d,q)- p p p: 自回归阶数(AR项数)。
- d d d: 差分阶数。
- q q q: 移动平均阶数(MA项数)。
3. 核心步骤
(1) 平稳性检验
- 方法:
- 时序图观察:判断是否存在趋势或季节性。
- 单位根检验:如 ADF 检验(存在单位根则非平稳)。
(2) 差分处理
- 步骤:
- 对非平稳序列进行差分(如一阶差分 ( d=1 ))。
- 重复差分直到序列平稳。
(3) 模型识别与参数选择
- 工具:
- 自相关函数(ACF):显示序列与滞后项的相关性。
- 偏自相关函数(PACF):显示序列与滞后项的直接相关性。
- 参数选择:
- 若 PACF 在滞后 ( p ) 截尾且 ACF 拖尾 → 选择 AR§。
- 若 ACF 在滞后 ( q ) 截尾且 PACF 拖尾 → 选择 MA(q)。
- 若 ACF/PACF 均拖尾 → 结合 AIC/BIC 选择 ( p, q )。
(4) 模型拟合与诊断
- 残差诊断:
- 残差应为白噪声(无自相关)。
- 检验方法:Ljung-Box 检验或观察残差 ACF/PACF。
(5) 预测与评估
- 评估指标:MAE、RMSE、MAPE。
4. 应用场景
- 经济预测:GDP、股票价格、税收。
- 销售预测:商品销量、库存管理。
- 能源与气象:电力需求、气温预测。
- 工程与运维:设备故障预测、网络流量分析。
5. 局限性
- 依赖平稳性:需通过差分处理非平稳序列。
- 线性假设:对复杂非线性问题效果有限。
- 参数敏感:( p, d, q ) 的选择依赖经验。
6. 示例:ARIMA建模流程
- 平稳性检验:通过 ADF 检验确认非平稳。
- 差分处理:一阶差分后序列平稳。
- ACF/PACF 分析:选择 ( p=0, q=2 )。
- 拟合模型:构建 ARIMA(0,1,2)。
- 预测:预测未来 6 个月销量并评估误差。
7. 相关模型对比
模型 | 特点 | 适用场景 |
---|---|---|
ARMA | ( d=0 ),仅适用于平稳序列 | 平稳时间序列 |
SARIMA | 扩展 ARIMA,加入季节性差分 | 具有季节性的序列 |
LSTM | 深度学习模型,捕捉非线性关系 | 复杂非线性时间序列 |
总结
ARIMA 是时间序列预测的经典工具,通过差分消除趋势/季节性,结合 AR 和 MA 捕捉数据规律。适用于线性趋势明显的短期预测,但对复杂非线性问题需结合其他模型(如 LSTM)或优化算法(如鲸鱼优化算法)提升精度。