当前位置: 首页 > news >正文

p-value与e-value

P-Value & E-value

一、什么是P-value & E-value

P-value是假设检验(hypothesis test)下最常用的指标。其定义为:在原假设(Null Hypothesis,H0\text{Null Hypothesis},H_0Null HypothesisH0)为真前提下,样本观测结果或更极端结果的概率。

通俗一点来说,如果原假设(H0H_0H0)是真的,那么我们得到现有手头上数据的概率应该是多大。举个例子,令原假设H0:一枚硬币是公平的H_0:\text{一枚硬币是公平的}H0:一枚硬币是公平的,那我们得到手头上这个样本数据(假设样本数据是9个正面和1个反面)的可能性有多大。

  • P-value很小(通常小于一个预设的显著性水平α\alphaα):说明在原假设下,观测到的数据是非常罕见的。因此,我们有理由拒绝原假设。
  • P-value很大(反之):说明在原假设下,观测到的数据并不意外。因此我们不需要拒绝原假设,即接受原假设,认为原假设是正确的。

E-value是一种较新的用于衡量统计证据的指标。它的定义是:一个非负随机变量EEE,在原假设(H0H_0H0)成立的情况下,满足
E(E)≤1 \mathbb{E}(E) \le 1 E(E)1
简单的来说,E-value表示你手里的数据在多大程度上(多少倍)支持备择假设而不是零假设。

  • E-value很小 (例如 e > 10):可以被看作是反对原假设的有力证据。想象一下,你参与一个游戏,规则是如果原假设为真,你平均只能拿回1块钱或更少。但你实际玩了一次就拿到了10块钱,这会让你强烈怀疑“游戏规则”(即原假设)的真实性。
  • E-value很大 (例如 e < 1):表示证据不支持拒绝原假设。

二、关于E-value的解释

在简单讲完E-value的定义之后,我们来讲一下几个容易混淆的知识点。我们首先举一个简单计算E-value的例子。

**场景:**我们想检验一枚硬币是否是公平的。我们怀疑它偏向于正面。

假设:

  • 原假设 H0H_0H0:硬币是公平的,即扔出正面的概率 p=0.5。
  • 备择假设H1H_1H1:硬币偏向正面,我们选择一个具体的备择点,比如 p=0.8。

实验: 我们扔硬币5次,观测到4次正面(H)和1次反面(T)。


我们的核心目标就是构造E-value。一个非常常见的构建e变量的方法是使用似然比(Likelihood Ratio)。我们将备择假设下的似然(Likelihood)除以原假设下的似然。

  1. 计算原假设 H0H_0H0 下的似然 L0L_0L0:

    观测到4正1反的概率是:
    L0=P(数据∣H0)=(54)⋅(0.5)4⋅(0.5)1=5⋅0.0625⋅0.5=0.15625L_0 = P(\text{数据} | H_0) = \binom{5}{4} \cdot (0.5)^4 \cdot (0.5)^1 = 5 \cdot 0.0625 \cdot 0.5 = 0.15625L0=P(数据H0)=(45)(0.5)4(0.5)1=50.06250.5=0.15625

  2. 计算备择假设 H1H_1H1 下的似然 L1L_1L1:
    观测到4正1反的概率是:
    L1=P(数据∣H1)=(54)⋅(0.8)4⋅(0.2)1=5⋅0.4096⋅0.2=0.4096 L_1 = P(\text{数据} | H_1) = \binom{5}{4} \cdot (0.8)^4 \cdot (0.2)^1 = 5 \cdot 0.4096 \cdot 0.2 = 0.4096L1=P(数据H1)=(45)(0.8)4(0.2)1=50.40960.2=0.4096

  3. 定义e变量E并计算其观测值(e-value):
    我们的e变量E就是似然比 E=L1L0E = \frac{L_1}{L_0}E=L0L1
    对于我们观测到的数据,其e-value计算如下:
    e−value=L1L0=0.40960.15625≈2.62e-value = \frac{L_1}{L_0} = \frac{0.4096}{0.15625} \approx 2.62evalue=L0L1=0.156250.40962.62

结果:我们得到的e-value约为2.62。这个值大于1,提供了反对原假设(硬币是公平的)的证据。我们可以将其解释为:相对于“硬币公平”的假设,我们的观测数据在“硬幣正面概率为0.8”的假设下,可能性是前者的2.62倍。

2.1 E-value (观测值) vs. E-variable (随机变量) 的期望

  • e-value:是我们根据一次具体的实验数据(例如“5次投掷,4正1反”)计算出来的一个具体的数值。在我们的例子里,这个数值就是2.62。
  • e-variable:是一个随机变量,是一个函数或规则。它本身不是一个固定的数,它的值取决于实验的结果。对于“5次投掷”这个实验,它所有可能的结果(0正5反, 1正4反, …, 5正0反)都会分别对应一个e-value。

2.2 对每个问题都重新证明E(E)≤1\mathbb{E}(E) \le 1E(E)1吗?

答案是不需要。我们只要使用似然比检验的方法来计算E-value,那我们可以确保这个E-value的期望是一定等于1。例证如下:

期望的计算公式为:EH0[E]=∑E_{H_0}[E] = \sumEH0[E]= 所有可能结果 E(E(E(结果)⋅P() \cdot P()P(结果∣H0)|H_0)H0)

其中,E(E(E(结果)=P(结果∣H1)P(结果∣H0)) = \frac{P(结果|H_1)}{P(结果|H_0)})=P(结果H0)P(结果H1)

所以,EH0[E]=∑E_{H_0}[E] = \sumEH0[E]= 所有可能结果 P(结果∣H1)P(结果∣H0)⋅P(结果∣H0)\frac{P(结果|H_1)}{P(结果|H_0)} \cdot P(结果|H_0)P(结果H0)P(结果H1)P(结果H0)

我们可以看到,P(P(P(结果∣H0)|H_0)H0) 这一项可以被约掉:

EH0[E]=∑E_{H_0}[E] = \sumEH0[E]= 所有可能结果 P(结果∣H1)P(结果|H_1)P(结果H1)

这个公式的含义是:在原假设 H0H_0H0 下对 EEE 变量求期望,等于把备择假设 H1H_1H1 下所有可能结果的概率加起来。而根据概率公理,任何一个概率分布,其所有可能结果的概率之和必然等于1。

因此:

EH0[E]=1 E_{H_0}[E] = 1 EH0[E]=1
这就证明了我们构造的这个随机变量满足 E[E]≤1E[E] \leq 1E[E]1 的条件,它确实是一个合格的 EEE 变量。

三、E-value与P-value之间的关系

首先我们对E-value定义了以下式子:
E(E)≤1 \mathbb{E}(E) \le 1 E(E)1
我们利用马尔可夫不等式(不等式结构如下):

P(X≥a)≤E[X]a P(X\geq a)\leq\frac{E[X]}a P(Xa)aE[X]
于是得到:
Pr⁡(E≥1/α)≤αE[E]≤α \Pr(E \geq 1/\alpha) \leq \alpha \mathbb{E}[E] \leq \alpha Pr(E1/α)αE[E]α
最后推出:
Pr⁡(E<1/α)≥1−α \Pr(E < 1/\alpha) \geq 1 - \alpha Pr(E<1/α)1α
完整公式如下:
Pr⁡(E<1/α)=1−Pr⁡(E≥1/α)≥1−αE[E]≥1−α \Pr(E < 1/\alpha) = 1 - \Pr(E \geq 1/\alpha) \geq 1 - \alpha \mathbb{E}[E] \geq 1 - \alpha Pr(E<1/α)=1Pr(E1/α)1αE[E]1α
其中:

  • P(E<1/α)P(E<1/\alpha)P(E<1/α): 表示e变量E的值小于某个阈值1/α1/\alpha1/α的概率。
  • ≥1−α\geq 1-\alpha1α: 整个公式的核心结论是,这个概率至少是1−α1-\alpha1α

对于公式(6)而言,我们可以理解成eee变量的值不太可能变得非常大。具体来说,它大于等于1/α1/\alpha1/α的概率不会超过α\alphaα(即P(E⩾1/α)⩽αP(E \geqslant 1/\alpha) \leqslant \alphaP(E1/α)α)。

http://www.dtcms.com/a/392606.html

相关文章:

  • 面经分享--京东一面
  • 大数据毕业设计选题推荐-基于大数据的帕金森病数据可视化分析系统-Spark-Hadoop-Bigdata
  • stack 和 queue
  • 执行yarn init报错:error Invalid package name.(question name)包名格式不对
  • Windows 下 PyTorch 入门深度学习环境安装与配置 CPU GPU 版 | 土堆教程
  • Transformer中为什么要使用多头注意力?
  • 《嵌入式硬件(十六):基于IMX6ULL的I2C的操作》
  • AI.工作助手.工作提效率
  • 【开题答辩全过程】以 Louis宠物商城为例,包含答辩的问题和答案
  • 微服务-网络模型与服务通信方式openfein
  • 如何快速定位局域网丢包设备?
  • 算法<java>——排序(冒泡、插入、选择、归并、快速、计数、堆、桶、基数)
  • 深入浅出CMMI:从混乱到卓越的研发管理体系化之路
  • Docker一键部署prometheus并实现飞书告警详解
  • 基于“开源AI大模型AI智能名片S2B2C商城小程序”的多平台资源位传播对直播营销流量转化的影响研究
  • 【设计模式】适配器模式 在java中的应用
  • 2013/07 JLPT听力原文 问题四
  • MyBatis 缓存体系剖析
  • MySQL 主从复制 + MyCat 读写分离 — 原理详解与实战
  • Vmake AI:美图推出的AI电商商品图编辑器,快速生成AI时装模特和商品图
  • Debian13 钉钉无法打开问题解决
  • 02.容器架构
  • Diffusion Model与视频超分(1):解读淘宝开源的视频增强模型Vivid-VR
  • 通过提示词工程(Prompt Engineering)方法重新生成从Ollama下载的模型
  • 有没有可以检测反爬虫机制的工具?
  • 大模型为什么需要自注意力机制?
  • 长度为K子数组中的最大和-定长滑动窗口
  • Linux安装Kafka(无Zookeeper模式)保姆级教程,云服务器安装部署,Windows内存不够可以看看
  • WEEX编译|续写加密市场叙事
  • 为 Element UI 表格增添排序功能