当前位置: 首页 > news >正文

推导二项型事件的随机变量标准误差:两种方法

二项型事件的标准误差公式是这样的:\frac{1}{f(x_q)}\sqrt{q(1-q)/n} ,其中f为先验分布(根据中心极限定理为正态分布)的PDF。给定采样数据\hat{X}和边界i,可以计算q值(采样数据中\hat{x}<i的频率)和对应的x_q值(CDF值为q时对应的x),然后用该公式得到随机变量X在x<i这件事上的标准误差。我们来看看这个公式怎么推导。

首先定义一下符号,二项型事件的一个典型是VaR,这里我们以VaR为例:设F是随机变量为收益值的CDF,所以我们有q=F(x_q)x_q是某个收益金额,q是收益小于这个金额的概率;n是采样数量。

先进行一些前置推导:

根据收益期望为0,则有:当x_q=0时,收益小于q的概率服从N(0,nq(1-q))(收益应服从正态分布,方差根据二项分布求得)

那么,对于任意x_q,则有收益小于q的概率服从N(q,nq(1-q))

(此时我们知道概率服从的分布,能求概率的标准误差,但我们想求金额的标准误差,所以要求金额服从的分布——有人说金额的分布不就是先验的正态分布吗?不是啊,看看标题是啥,我们求的是二项型事件(在给定参数q下)的标准误差,不是整个先验分布的标准误差,这个你需要理解)

为了达到这个目标,我们可以构造一个这样的变量F(\hat{x_q})-q,视q为常数,可以知道它服从N(0,nq(1-q))

把n乘到左边,可以得到\sqrt{n}(F(\hat{x_q})-q) \sim N(0, q(1-q))

然后进入推导的核心部分。先来第一种方法,即书上给的参考文献里的方法,它是基于delta方法的。dalta方法定义是这样的:

我们想求金额的分布,就要在式子里把\hat{x_q}单独提出来。可以注意到,delta方法是把式子左边和式子右边的方差都套了一个g。那么我们只需用F^{-1}作为g,就可以F(\hat{x_q})外层的F脱掉,得到单独的\hat{x_q}

F^{-1}作为g应用delta方法,则有:\sqrt{n}(\hat{x_q}-F^{-1}(q)) \sim N(0, [F^{-1'}(q)]^2q(1-q))

现在我们把\hat{x_q}挪到一边就行了,挪完之后是这样的\hat{x_q} \sim N(F^{-1}(q), [F^{-1'}(q)]^2nq(1-q))

根据标准误差公式\sigma/\sqrt{n},可得\hat{x_q}标准误差为F^{-1'}(q) \sqrt{q(1-q)/n},这里要注意,反函数的导数等于原函数导数的倒数,那么F是CDF,原函数就是PDF,F^{-1'}(x)则为1/f(x),证毕。

delta方法有点抽象,我们还有第二种方法。考虑泰勒展开:F(\hat{x_q})=F(x_i)+F'(x_i)(\hat{x_q}-x_i)+o(\hat{x_q}-x_i)

代入x_i=x_q,因q=F(x_q),则有F(\hat{x_q})=q+F'(x_q)(\hat{x_q}-x_q)+o(\hat{x_q}-x_q)

这个式子里有我们想要的\hat{x_q},我们想办法把它代换进入前置推导最后得到的那个式子,那个式子左边是F(\hat{x_q})-q,所以对泰勒展开式,我也把它挪到一边,有F(\hat{x_q})-q=(\hat{x_q}-x_q)F'(x_q)(只考虑一阶)

代入得到\sqrt{n}((\hat{x_q}-x_q)F'(x_q)) \sim N(0, q(1-q)),即为\hat{x_q}-x_q \sim N(0, nq(1-q)/F'(x_q)]^2),由于F'=f,标准误差\sigma/\sqrt{n}= \frac{1}{f(x_q)}\sqrt{q(1-q)/n},证毕。

这些推导看起来有点trick,所以我对泰勒展开这种方法提供一个我自己直观上的理解:

首先我们知道二项分布的标准误差是\sqrt{q(1-q)/n},量纲是概率。我们现在想要求原始随机变量X的标准误差(如对于VaR,量纲为金额)。如果我们从量纲变换的角度来思考,事实上是在找一个值给二项分布的标准误差“放缩”一下(和求期望的思想类似)。

那我们基于什么来放缩呢?先考虑CDF,CDF(x)返回的是收益比x少的概率(x是金额),那么它的导数PDF描述的就是,在当前这个点,再多挣一块钱的时候,(挣的钱不少于x+1的)概率(CDF值)会增加多少(如PDF值为0.0027,那意思是,在只考虑一阶近似的情况下,自该点多x+1块钱,概率增加0.0027),那么把自变量因变量反过来思考,如果在该点概率+1,需要多挣多少钱?——这种思考方式有点奇葩,概率最多就1,咋能+1呢?从概率论角度来理解,这个操作的意义是基于该点的一阶近似重新构造了一个总体。如下图所示:

而这个操作在数值上的意义就是,计算按在f(x)这点的趋势,概率+1的时候,需要挣多少钱——答案是1/0.0027=370.37,也就是公式中的1/f(x)。而对于f(x)中的任意一点,有对应的q,则\frac{1}{f(x)}\sqrt{q(1-q)/n}这个乘法的意义即为:基于q构造的新总体的值域范围(x+370.37-x=370.37,量纲是金额)*参数为q的二项分布标准误差(量纲是概率)=期望(原始随机变量X在参数为q时的标准误差,量纲是金额),完成了我们的放缩操作。

附例题帮助大家理解计算:

 最后感谢数学天才陈一言浇我delta方法!!!

相关文章:

  • GNU Binutils 全工具指南:从编译到逆向的完整生态
  • 铺地毯!!!
  • P3385 【模板】负环
  • 阿里云oss开发实践:大文件分片、断点续传、实时进度 React+Node+Socket.IO
  • Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(二)
  • 5c/c++内存管理
  • 【DeepSeek 】学习编程的利器:DeepSeek 使用指南
  • react中如何使用使用react-redux进行数据管理
  • FastGPT 引申:奥运选手知识图谱构建与混合检索应用
  • arthas快速入门
  • 后端架构模式之-BFF(Backend-For-Frontend)
  • 康谋分享 | 3DGS:革新自动驾驶仿真场景重建的关键技术
  • RFID无线测温技术助力环网柜智能运维升级
  • 微信小程序接入deepseek
  • 道可云人工智能每日资讯|《奇遇三星堆》VR沉浸探索展(淮安站)开展
  • 字符函数和字符串函数
  • 如何排查服务器内存泄漏问题
  • Redis|集群 Cluster
  • 实时云渲染技术布道 | 像素流送技术与商业化实时云渲染产品的指标对比
  • CVPR2025——重建能力vs生成能力《Reconstruction vs. Generation》论文解析
  • 竞彩湃|欧联杯决赛前,曼联、热刺继续划水?
  • 打击网络侵权盗版!四部门联合启动“剑网2025”专项行动
  • 新城悦服务:独董许新民辞任,新任独董与另两人组成调查委员会将调查与关联方资金往来
  • 昔日千亿房企祥生集团约2.03亿元债权被拍卖,起拍价8000万元
  • 李强:把做强国内大循环作为推动经济行稳致远的战略之举
  • 南京江宁区市监局通报:盒马一批次猕猴桃检出膨大剂超标