什么是偏自相关函数PACF
要理解偏自相关函数(Partial Autocorrelation Function, PACF),需先从其“前辈”——自相关函数(ACF)入手,再逐步拆解“偏”的核心含义、计算原理及实际应用。
一、铺垫:自相关函数(ACF)的局限性
时间序列的自相关函数(ACF) 衡量的是序列在滞后k阶(即YtY_tYt与Yt−kY_{t-k}Yt−k)之间的总线性相关程度,记为ρ(k)\rho(k)ρ(k)。
例如,滞后2阶的ACF(ρ(2)\rho(2)ρ(2))描述YtY_tYt与Yt−2Y_{t-2}Yt−2的相关性,但这种相关性可能包含间接关联:YtY_tYt先关联Yt−1Y_{t-1}Yt−1,再通过Yt−1Y_{t-1}Yt−1关联Yt−2Y_{t-2}Yt−2,即ρ(2)\rho(2)ρ(2)是“直接关联+间接关联”的总和。
局限性:ACF无法区分“直接相关”和“间接相关”。而PACF的核心作用,就是消除中间滞后阶数的间接影响,只保留YtY_tYt与Yt−kY_{t-k}Yt−k的直接线性关联。
二、PACF的核心定义与原理
1. PACF的定义:“偏”=条件相关
偏自相关函数(PACF)衡量的是:在控制所有中间滞后阶数(Yt−1,Yt−2,...,Yt−k+1Y_{t-1}, Y_{t-2}, ..., Y_{t-k+1}Yt−1,Yt−2,...,Yt−k+1)的影响后,YtY_tYt与Yt−kY_{t-k}Yt−k之间的条件线性相关系数,记为ϕkk\phi_{kk}ϕkk(下标“kk”表示“滞后k阶的偏自相关系数”)。
通俗理解:
- 滞后1阶PACF(ϕ11\phi_{11}ϕ11):无需控制中间变量(无中间阶数),因此ϕ11=ρ(1)\phi_{11} = \rho(1)ϕ11=ρ(1)(与ACF的滞后1阶相等)。
- 滞后2阶PACF(ϕ22\phi_{22}ϕ22):控制Yt−1Y_{t-1}Yt−1后,YtY_tYt与Yt−2Y_{t-2}Yt−2的直接相关。
- 滞后3阶PACF(ϕ33\phi_{33}ϕ33):控制Yt−1Y_{t-1}Yt−1和Yt−2Y_{t-2}Yt−2后,YtY_tYt与Yt−3Y_{t-3}Yt−3的直接相关。
2. PACF的计算原理:Yule-Walker方程法
PACF的计算核心是Yule-Walker方程,本质是通过“多元线性回归”剥离间接关联:
对于滞后k阶,假设YtY_tYt可由前k个滞后项线性表示:
Yt=ϕk1Yt−1+ϕk2Yt−2+...+ϕkkYt−k+εtY_t = \phi_{k1}Y_{t-1} + \phi_{k2}Y_{t-2} + ... + \phi_{kk}Y_{t-k} + \varepsilon_tYt=ϕk1Yt−1+ϕk2Yt−2+...+ϕkkYt−k+εt
其中,εt\varepsilon_tεt是白噪声(无自相关的误差项)。
通过最小化误差平方和,可得到一组线性方程组(Yule-Walker方程):
{ρ(0)ϕk1+ρ(1)ϕk2+...+ρ(k−1)ϕkk=ρ(1)ρ(1)ϕk1+ρ(0)ϕk2+...+ρ(k−2)ϕkk=ρ(2)...ρ(k−1)ϕk1+ρ(k−2)ϕk2+...+ρ(0)ϕkk=ρ(k)
\begin{cases}
\rho(0)\phi_{k1} + \rho(1)\phi_{k2} + ... + \rho(k-1)\phi_{kk} = \rho(1) \\
\rho(1)\phi_{k1} + \rho(0)\phi_{k2} + ... + \rho(k-2)\phi_{kk} = \rho(2) \\
... \\
\rho(k-1)\phi_{k1} + \rho(k-2)\phi_{k2} + ... + \rho(0)\phi_{kk} = \rho(k)
\end{cases}
⎩⎨⎧ρ(0)ϕk1+ρ(1)ϕk2+...+ρ(k−1)ϕkk=ρ(1)ρ(1)ϕk1+ρ(0)ϕk2+...+ρ(k−2)ϕkk=ρ(2)...ρ(k−1)ϕk1+ρ(k−2)ϕk2+...+ρ(0)ϕkk=ρ(k)
由于ρ(0)=1\rho(0)=1ρ(0)=1(序列与自身的相关系数为1),解此方程组得到的ϕkk\phi_{kk}ϕkk,就是滞后k阶的PACF值。
3. PACF的图形解读:截尾与拖尾
实际分析中,我们通过PACF图(横轴为滞后阶数k,纵轴为ϕkk\phi_{kk}ϕkk,附带95%置信区间±2/n\pm 2/\sqrt{n}±2/n,n为样本量)判断序列特征,核心是“截尾”和“拖尾”:
- 截尾:当k超过某个阶数p后,ϕkk\phi_{kk}ϕkk突然落入置信区间内(接近0),说明滞后k阶及以后无直接相关。
- 拖尾:ϕkk\phi_{kk}ϕkk缓慢衰减但始终不落入置信区间,说明存在长期间接相关。
PACF的最大应用是识别自回归模型(AR)的阶数:AR§模型的PACF会在滞后p阶处截尾(这是AR模型的核心特征)。
三、3个实例:理解PACF的应用
以下实例均基于“平稳时间序列”(非平稳序列需先差分,PACF仅适用于平稳序列),通过“模型设定→理论PACF特征→计算验证→图形解读”展开。
实例1:平稳白噪声序列(WN)——PACF全截尾
模型设定
白噪声序列是最基础的平稳序列,满足:
- 均值E(Yt)=0E(Y_t) = 0E(Yt)=0
- 方差Var(Yt)=σ2Var(Y_t) = \sigma^2Var(Yt)=σ2(常数)
- 自相关系数:ρ(k)=0\rho(k) = 0ρ(k)=0(对所有k≥1k \geq 1k≥1,即无任何自相关)
例如:Yt=εtY_t = \varepsilon_tYt=εt,其中εt∼N(0,1)\varepsilon_t \sim N(0, 1)εt∼N(0,1)(标准正态白噪声)。
理论PACF特征
由于白噪声无任何自相关(直接或间接),因此对所有滞后阶数k≥1,PACF值ϕkk≈0\phi_{kk} \approx 0ϕkk≈0,且落入95%置信区间内(截尾于k=0)。
计算验证
- 滞后1阶(k=1):Yule-Walker方程为ρ(0)ϕ11=ρ(1)\rho(0)\phi_{11} = \rho(1)ρ(0)ϕ11=ρ(1),代入ρ(0)=1\rho(0)=1ρ(0)=1、ρ(1)=0\rho(1)=0ρ(1)=0,得ϕ11=0\phi_{11}=0ϕ11=0。
- 滞后2阶(k=2):方程为{ϕ21=0ϕ21+ϕ22=0\begin{cases}\phi_{21} = 0 \\ \phi_{21} + \phi_{22} = 0\end{cases}{ϕ21=0ϕ21+ϕ22=0,解得ϕ22=0\phi_{22}=0ϕ22=0。
- 滞后k≥3:同理,ϕkk=0\phi_{kk}=0ϕkk=0。
图形解读
PACF图中,所有滞后阶数的ϕkk\phi_{kk}ϕkk均在±2/n\pm 2/\sqrt{n}±2/n(如n=100时,置信区间为±0.2)内波动,无任何显著不为0的点。
应用意义
白噪声序列是“无信息”序列,无需建模(建模无法提取更多规律)。PACF全截尾是判断序列为白噪声的核心依据之一。
实例2:一阶自回归模型(AR(1))——PACF截尾于k=1
模型设定
AR(1)是最常见的AR模型,满足:
Yt=ϕYt−1+εtY_t = \phi Y_{t-1} + \varepsilon_tYt=ϕYt−1+εt
其中:
- ϕ\phiϕ为自回归系数(需满足∣ϕ∣<1|\phi| < 1∣ϕ∣<1,保证序列平稳)
- εt∼WN(0,σ2)\varepsilon_t \sim WN(0, \sigma^2)εt∼WN(0,σ2)(白噪声误差)
例如:取ϕ=0.6\phi=0.6ϕ=0.6(正相关),则模型为Yt=0.6Yt−1+εtY_t = 0.6Y_{t-1} + \varepsilon_tYt=0.6Yt−1+εt,εt∼N(0,1)\varepsilon_t \sim N(0, 1)εt∼N(0,1)。
理论PACF特征
AR(1)的核心特征:PACF在滞后1阶处显著不为0,滞后2阶及以后截尾(ϕkk=0\phi_{kk}=0ϕkk=0)。
原因:AR(1)中,YtY_tYt仅直接依赖Yt−1Y_{t-1}Yt−1,与Yt−2,Yt−3,...Y_{t-2}, Y_{t-3}, ...Yt−2,Yt−3,...的关联均通过Yt−1Y_{t-1}Yt−1间接传递,控制Yt−1Y_{t-1}Yt−1后,直接关联消失。
计算验证
- 先计算ACF(需用ACF推导PACF):
AR(1)的自相关系数为ρ(k)=ϕk\rho(k) = \phi^kρ(k)=ϕk(指数衰减),因此:
- ρ(1)=0.61=0.6\rho(1) = 0.6^1 = 0.6ρ(1)=0.61=0.6
- ρ(2)=0.62=0.36\rho(2) = 0.6^2 = 0.36ρ(2)=0.62=0.36
- ρ(3)=0.63=0.216\rho(3) = 0.6^3 = 0.216ρ(3)=0.63=0.216
- 计算PACF:
- 滞后1阶(k=1):ϕ11=ρ(1)=0.6\phi_{11} = \rho(1) = 0.6ϕ11=ρ(1)=0.6(显著不为0)。
- 滞后2阶(k=2):代入Yule-Walker方程:
{ϕ21+ρ(1)ϕ22=ρ(1)ρ(1)ϕ21+ϕ22=ρ(2)\begin{cases}\phi_{21} + \rho(1)\phi_{22} = \rho(1) \\ \rho(1)\phi_{21} + \phi_{22} = \rho(2)\end{cases}{ϕ21+ρ(1)ϕ22=ρ(1)ρ(1)ϕ21+ϕ22=ρ(2)
代入ρ(1)=0.6\rho(1)=0.6ρ(1)=0.6、ρ(2)=0.36\rho(2)=0.36ρ(2)=0.36,解得ϕ22=0\phi_{22}=0ϕ22=0(截尾)。 - 滞后3阶(k=3):同理,解方程组得ϕ33=0\phi_{33}=0ϕ33=0(持续截尾)。
图形解读
- 滞后1阶:ϕ11=0.6\phi_{11}=0.6ϕ11=0.6,超出95%置信区间(如n=100时±0.2),显著不为0。
- 滞后2阶及以后:ϕkk≈0\phi_{kk}≈0ϕkk≈0,均在置信区间内。
应用意义
通过PACF截尾于k=1,可判断序列符合AR(1)模型,无需尝试更高阶的AR模型(如AR(2))。
实例3:二阶自回归模型(AR(2))——PACF截尾于k=2
模型设定
AR(2)模型满足:
Yt=ϕ1Yt−1+ϕ2Yt−2+εtY_t = \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \varepsilon_tYt=ϕ1Yt−1+ϕ2Yt−2+εt
其中:
- ϕ1,ϕ2\phi_1, \phi_2ϕ1,ϕ2为自回归系数(需满足平稳条件:ϕ1+ϕ2<1\phi_1 + \phi_2 < 1ϕ1+ϕ2<1、ϕ2−ϕ1<1\phi_2 - \phi_1 < 1ϕ2−ϕ1<1、∣ϕ2∣<1|\phi_2| < 1∣ϕ2∣<1)
- εt∼WN(0,σ2)\varepsilon_t \sim WN(0, \sigma^2)εt∼WN(0,σ2)
例如:取ϕ1=0.5\phi_1=0.5ϕ1=0.5、ϕ2=0.3\phi_2=0.3ϕ2=0.3(均满足平稳条件),模型为Yt=0.5Yt−1+0.3Yt−2+εtY_t = 0.5Y_{t-1} + 0.3Y_{t-2} + \varepsilon_tYt=0.5Yt−1+0.3Yt−2+εt,εt∼N(0,1)\varepsilon_t \sim N(0, 1)εt∼N(0,1)。
理论PACF特征
AR(2)的核心特征:PACF在滞后1、2阶处显著不为0,滞后3阶及以后截尾。
原因:YtY_tYt直接依赖Yt−1Y_{t-1}Yt−1和Yt−2Y_{t-2}Yt−2,与Yt−3,Yt−4,...Y_{t-3}, Y_{t-4}, ...Yt−3,Yt−4,...的关联需通过前两阶间接传递,控制前两阶后,直接关联消失。
计算验证
- 先计算ACF(AR(2)的ACF满足ρ(k)=ϕ1ρ(k−1)+ϕ2ρ(k−2)\rho(k) = \phi_1 \rho(k-1) + \phi_2 \rho(k-2)ρ(k)=ϕ1ρ(k−1)+ϕ2ρ(k−2)):
- ρ(0)=1\rho(0)=1ρ(0)=1
- ρ(1)=ϕ11−ϕ2=0.51−0.3≈0.714\rho(1) = \frac{\phi_1}{1 - \phi_2} = \frac{0.5}{1 - 0.3} ≈ 0.714ρ(1)=1−ϕ2ϕ1=1−0.30.5≈0.714
- ρ(2)=ϕ1ρ(1)+ϕ2ρ(0)=0.5×0.714+0.3×1≈0.657\rho(2) = \phi_1 \rho(1) + \phi_2 \rho(0) = 0.5×0.714 + 0.3×1 ≈ 0.657ρ(2)=ϕ1ρ(1)+ϕ2ρ(0)=0.5×0.714+0.3×1≈0.657
- ρ(3)=ϕ1ρ(2)+ϕ2ρ(1)=0.5×0.657+0.3×0.714≈0.542\rho(3) = \phi_1 \rho(2) + \phi_2 \rho(1) = 0.5×0.657 + 0.3×0.714 ≈ 0.542ρ(3)=ϕ1ρ(2)+ϕ2ρ(1)=0.5×0.657+0.3×0.714≈0.542
- 计算PACF:
- 滞后1阶(k=1):ϕ11=ρ(1)≈0.714\phi_{11} = \rho(1) ≈ 0.714ϕ11=ρ(1)≈0.714(显著)。
- 滞后2阶(k=2):代入Yule-Walker方程:
{ϕ21+ρ(1)ϕ22=ρ(1)ρ(1)ϕ21+ϕ22=ρ(2)\begin{cases}\phi_{21} + \rho(1)\phi_{22} = \rho(1) \\ \rho(1)\phi_{21} + \phi_{22} = \rho(2)\end{cases}{ϕ21+ρ(1)ϕ22=ρ(1)ρ(1)ϕ21+ϕ22=ρ(2)
代入ρ(1)=0.714\rho(1)=0.714ρ(1)=0.714、ρ(2)=0.657\rho(2)=0.657ρ(2)=0.657,解得ϕ22≈0.3\phi_{22}≈0.3ϕ22≈0.3(显著不为0)。 - 滞后3阶(k=3):解方程组得ϕ33=0\phi_{33}=0ϕ33=0(截尾)。
图形解读
- 滞后1、2阶:ϕ11≈0.714\phi_{11}≈0.714ϕ11≈0.714、ϕ22≈0.3\phi_{22}≈0.3ϕ22≈0.3,均超出95%置信区间(如n=100时±0.2)。
- 滞后3阶及以后:ϕkk≈0\phi_{kk}≈0ϕkk≈0,落入置信区间内。
应用意义
通过PACF截尾于k=2,可判断序列符合AR(2)模型,这是时间序列建模中“定阶”的关键步骤(如ARIMA模型的AR部分阶数确定)。
四、总结:PACF的核心价值
- 定义本质:消除中间滞后阶数的间接影响,衡量YtY_tYt与Yt−kY_{t-k}Yt−k的直接线性相关。
- 计算核心:通过Yule-Walker方程求解多元线性回归的第k个系数。
- 关键特征:AR§模型的PACF在滞后p阶处截尾(这是识别AR阶数的“黄金标准”)。
- 应用场景:时间序列建模(如ARIMA、SARIMA)中的“AR部分阶数确定”,以及判断序列是否为白噪声。
通过上述3个实例,可清晰看到:PACF的“截尾阶数”直接对应AR模型的阶数,是时间序列分析中不可或缺的工具。