机器学习数学知识温习(2)- 高斯-正态分布
高斯分布
1.标准差与方差
假定有一组数据x,它的均值是μ\muμ,计算这组数据的每个数xix_ixi与μ\muμ的差(xi−μ)(x_i - \mu)(xi−μ),对其取平方(xi−μ)2(x_i - \mu)^2(xi−μ)2,这里取平方是为了后续求和的时候,如果不取平方求和,正负抵消,无法正式反馈总的一个偏差大小,求平方后偏差的平方求和,再除以数据的个数,得到偏差平方的平均值,也就是方差,对方差再开平方根,就得到了标准差。用公式表示就是
σ=1N∑(xi−μ)2\sigma=\sqrt{ \frac{1}{N} \sum(x_i - \mu)^2}σ=N1∑(xi−μ)2
2.高斯分布/正态分布定义
如果一维随机变量X的密度函数为:f(x)=12πσe−(x−μ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}f(x)=2πσ1e−2σ2(x−μ)2,其中μ\muμ就是均值,σ\sigmaσ就是方差,则称随机变量x服从参数μ\muμ,σ2\sigma^2σ2的正态分布,记作X~N(μ\muμ,σ2\sigma^2σ2).N为normal distribution的首字母。当μ\muμ=0,σ\sigmaσ=1时,正态分布N(0,1)称为标准正态分布。密度函数为:
ψ(x)=12πe−x22\psi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}ψ(x)=2π1e−2x2,其中x∈\in∈(−∞,∞-\infty, \infty−∞,∞)
μ 是正态分布的均值(决定分布的中心位置)。σ 是正态分布的标准差(决定分布的离散程度,σ2σ2 是方差)。xx是随机变量的取值。e 是自然常数(约等于2.71828)。ππ是圆周率。
公式组成部分的解释
系数部分:12πσ\frac{1}{\sqrt{2π}\sigma}2πσ1 这个系数是为了确保整个概率密度函数从 −∞−∞ 到 +∞+∞ 的积分等于1,即满足概率密度函数的规范性。
指数部分 −(x−μ)22σ2-\frac{(x-\mu)^2}{2\sigma^2}−2σ2(x−μ)2
这是正态分布的核心,它形成了一个关于 x=μ对称的钟形曲线。
x−μσ\frac{x−\mu}{\sigma}σx−μ 是标准化的过程,表示 x距离均值有多少个标准差,通常简化记为z,叫标准分数。显然,任意的单变量正态分布都可以通过z= x−μσ\frac{x−\mu}{\sigma}σx−μ 转化为标准正态分布。
平方操作确保了无论 x 在均值的左边还是右边,其贡献都是正的,且随着距离增大,指数部分迅速衰减。
