Day59
以下是对这些知识点的整理回顾,方便快速理解核心内容:
1. SARIMA模型的参数和用法
• 模型表达式:SARIMA(p, d, q)(P, D, Q)m
◦ 非季节性部分:(p, d, q),其中p为自回归项数,d为差分次数(使序列平稳),q为移动平均项数。
◦ 季节性部分:(P, D, Q),其中P为季节性自回归项数,D为季节性差分次数,Q为季节性移动平均项数;m为季节性周期(如年周期m=12,周周期m=7)。
• 用法:用于处理具有季节性的时间序列数据,通过差分消除趋势和季节性,再用ARMA模型拟合平稳后的序列,实现预测。
2. 模型结果的检验可视化
模型检验可视化主要用于判断模型是否充分捕捉数据特征(如残差是否为白噪声),常用图表包括:
• 残差序列图:观察残差是否随机波动,无明显趋势或季节性。
• 残差自相关图(ACF):若残差无显著自相关(大部分点落在置信区间内),说明模型拟合较好。
• QQ图:检验残差是否近似正态分布,点越接近对角线,正态性越好。
• 预测值与实际值对比图:直观展示预测效果,评估误差大小。
3. 多变量数据的理解
• 内生变量:模型中被解释的变量,其变化由模型内其他变量影响(如预测销量时,销量本身是内生变量)。
• 外部变量:模型外的变量,影响内生变量但不受其影响(如预测销量时,促销活动、气温等是外部变量)。
4. 多变量模型
a. 统计模型
• SARIMA(单向因果):可引入外部变量(如SARIMAX),假设外部变量单向影响内生变量,不考虑反向作用。
• VAR(向量自回归):适用于多个内生变量,考虑变量间的双向依赖关系(如GDP与消费相互影响),通过滞后项捕捉变量间的动态关系。
b. 机器学习模型
• 特点:需通过滑动窗口构造输入特征(如用前n期数据预测第n+1期)。
• 常用方式:结合ARIMA等模型提取线性特征(趋势、季节性),再用机器学习模型(如随机森林、XGBoost)捕捉残差中的非线性关系,提升预测精度。
c. 深度学习模型
• 优势:设计上适配时序数据,如:
◦ LSTM/GRU:通过门控机制捕捉长短期依赖。
◦ Transformer(带注意力机制):关注不同时间步的重要性,适合长序列处理。
◦ 天然支持多变量输入,可同时处理多个相关变量的动态变化。