推导二项型事件的随机变量标准误差:两种方法
二项型事件的标准误差公式是这样的: ,其中f为先验分布(根据中心极限定理为正态分布)的PDF。给定采样数据
和边界i,可以计算q值(采样数据中
的频率)和对应的
值(CDF值为q时对应的x),然后用该公式得到随机变量X在x<i这件事上的标准误差。我们来看看这个公式怎么推导。
首先定义一下符号,二项型事件的一个典型是VaR,这里我们以VaR为例:设F是随机变量为收益值的CDF,所以我们有,
是某个收益金额,q是收益小于这个金额的概率;n是采样数量。
先进行一些前置推导:
根据收益期望为0,则有:当时,收益小于q的概率服从
(收益应服从正态分布,方差根据二项分布求得)
那么,对于任意,则有收益小于q的概率服从
(此时我们知道概率服从的分布,能求概率的标准误差,但我们想求金额的标准误差,所以要求金额服从的分布——有人说金额的分布不就是先验的正态分布吗?不是啊,看看标题是啥,我们求的是二项型事件(在给定参数q下)的标准误差,不是整个先验分布的标准误差,这个你需要理解)
为了达到这个目标,我们可以构造一个这样的变量,视q为常数,可以知道它服从
把n乘到左边,可以得到
然后进入推导的核心部分。先来第一种方法,即书上给的参考文献里的方法,它是基于delta方法的。dalta方法定义是这样的:
我们想求金额的分布,就要在式子里把单独提出来。可以注意到,delta方法是把式子左边和式子右边的方差都套了一个g。那么我们只需用
作为g,就可以
外层的F脱掉,得到单独的
。
以作为g应用delta方法,则有:
现在我们把挪到一边就行了,挪完之后是这样的
根据标准误差公式,可得
标准误差为
,这里要注意,反函数的导数等于原函数导数的倒数,那么F是CDF,原函数就是PDF,
则为
,证毕。
delta方法有点抽象,我们还有第二种方法。考虑泰勒展开:
代入,因
,则有
这个式子里有我们想要的,我们想办法把它代换进入前置推导最后得到的那个式子,那个式子左边是
,所以对泰勒展开式,我也把它挪到一边,有
(只考虑一阶)
代入得到,即为
,由于F'=f,标准误差
,证毕。
这些推导看起来有点trick,所以我对泰勒展开这种方法提供一个我自己直观上的理解:
首先我们知道二项分布的标准误差是,量纲是概率。我们现在想要求原始随机变量X的标准误差(如对于VaR,量纲为金额)。如果我们从量纲变换的角度来思考,事实上是在找一个值给二项分布的标准误差“放缩”一下(和求期望的思想类似)。
那我们基于什么来放缩呢?先考虑CDF,CDF(x)返回的是收益比x少的概率(x是金额),那么它的导数PDF描述的就是,在当前这个点,再多挣一块钱的时候,(挣的钱不少于x+1的)概率(CDF值)会增加多少(如PDF值为0.0027,那意思是,在只考虑一阶近似的情况下,自该点多x+1块钱,概率增加0.0027),那么把自变量因变量反过来思考,如果在该点概率+1,需要多挣多少钱?——这种思考方式有点奇葩,概率最多就1,咋能+1呢?从概率论角度来理解,这个操作的意义是基于该点的一阶近似重新构造了一个总体。如下图所示:
而这个操作在数值上的意义就是,计算按在f(x)这点的趋势,概率+1的时候,需要挣多少钱——答案是1/0.0027=370.37,也就是公式中的1/f(x)。而对于f(x)中的任意一点,有对应的q,则这个乘法的意义即为:基于q构造的新总体的值域范围(x+370.37-x=370.37,量纲是金额)*参数为q的二项分布标准误差(量纲是概率)=期望(原始随机变量X在参数为q时的标准误差,量纲是金额),完成了我们的放缩操作。
附例题帮助大家理解计算:
最后感谢数学天才陈一言浇我delta方法!!!