4. 时间序列预测的自回归和自动方法
4.1自回归
自回归是一种时间序列预测方法,仅依赖于时间序列的先前输出:该技术假设下一个时间戳的未来观测值与先前时间戳的观测值存在线性关系。
在自回归中,前一个时间戳的输出值成为预测下一个时间戳的输入值,并且误差遵循简单线性回归模型中关于误差的一般假设。在自回归中,时间序列中用于预测下一个时间戳的先前输入值的数量称为顺序(我们一般用字母p表示顺序)。该顺序值决定了将使用多少个先前的数据点:通常,数据科学家通过测试不同的值并观测使用最小的赤池信息量准则(AIC)得出的模型来估计p值。我们将在后面讨论(AIC)和贝叶斯信息量准则(BIC)惩罚似然准则。
一阶自回归:将当前预测值(输出)基于紧接在前的值(输入)的自回归。
二阶自回归:使用前两个值来预测下一个时间戳值。
n阶自回归是多重线性回归,其中在任何时间t的序列值都是该同一时间序列中先前值的线性函数。由于这种序列依赖性,自回归的另一个重要方面是自相关:自相关是一种统计特性,当时间序列与其自身的之前或滞后版本线性相关时,就会出现这种特性。
自相关是自回归的相关概念,输出(即需要预测的目标变量)和特定的滞后变量(即先前时间戳用作输入的一组值)之间的相关性越强,自回归赋予该特定变量的权重越大。因此该变量被认为具有很强的预测能力。
参数方法:线性回归、普通最小二乘回归依赖于隐含的假设,即用于训练模型的训练集中不存在自相关。与他们一起使用的数据集呈现正态分布,并且它们的回归函数是根据有限数量的未知参数定义的,这些未知参数是从数据中估计得到的。
因此,自相关可以帮助data scientist 为时间序列预测解决方案选择最合适的方法。此外自相关对于从数据和变量之间获得额外的洞察力以及识别隐藏的模式(如时间序列中的季节性和趋势)非常有用。
data scientist 还经常使用自相关图 通过计算波动时滞后数据值的自相关性 来检查时间序列中的随机性。如果时间序列是随机的,则所有时间滞后的自相关值应该接近于零。如果时间序列不是随机的,那么一个或多个自相关将显著非零。
由于ts data load 集非常精细,并且包含大量每小时的数据点,所以我们无法看到
应该在自相关图中显示的水平线。因此,我们可以创建数据集的子集(例如,可以选择
2014年8月的第一周),然后再次应用自相关图函数,如下所示:
如图4.5所示,自相关图显示了垂直轴上的自相关函数值。它的范围是-1到1。图
中显示的水平线对应于 95%和 99%置信区间,虚线对应于99%置信区间。自相关图旨
在揭示时间序列的数据点是正相关、负相关还是相互独立的。
时间序列的滞后自相关图也称为自相关函数(ACF)。
运行这些示例会创建两个二维图,分别显示x轴上的滞后值和y轴上-1和1之间的相关性。
从这两个图中可以看出,置信区间被绘制成圆锥形。默认情况下,置信区间设置为95%,这表明该圆锥体之外的值很可能是相关的。
如何理解95%的置信区间(超易懂)_哔哩哔哩_bilibili
一个视频讲清楚置信区间!怎么理解、定义、评价、计算、与参考值区别,与P值关系_哔哩哔哩_bilibili
一个视频搞清楚最大似然估计,6min超简单~_哔哩哔哩_bilibili