当前位置: 首页 > news >正文

【课堂笔记】概率论-3

文章目录

    • 指数族分布
      • 定义
      • 例子
    • 更多可能用到的分布
    • 矩/累积量生成函数(Moment/cumulant generating functions)
      • 定义
      • 性质
    • 特征函数(Characteristic Function)
      • 定义
      • 性质
      • 反演公式
      • 例子
    • 共轭先验(Conjugate priors)
    • Bregman散度(Bregman divergence)
      • 定义
      • 例子
      • 性质
    • Fenchel 共轭(Fenchel Conjugate)
      • 梯度与共轭的关系
      • **Legendre-Fenchel 对偶恒等式**:
      • Bregman散度的对偶性
    • 指数族 & Bregman散度
    • 熵(Entropy)
    • KL散度(Kullback-Leibler Divergence)

指数族分布

定义

我们给出一类概率分布的通用表达式:
f(x;θ)=h(x)exp⁡{<T(x),θ>−b(θ)}f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{T(x),θb(θ)}

  • θ\thetaθ自然参数(natural parameter)
  • f(x;θ)f(x;\theta)f(x;θ):参数为θ\thetaθ的概率密度函数(相对于某个基测度μ(dx)\mu(dx)μ(dx)
  • h(x)≥0h(x)\ge 0h(x)0:编码数据的支持集(support),即哪些xxx的值是可能的,它不依赖于θ\thetaθ
  • T(x)T(x)T(x)充分统计量(sufficient statistics),提取数据中的关键信息
  • b(θ)b(\theta)b(θ)累积量函数(cumulant function),它确保了概率密度函数可以被归一化(即积分等于1)

满足这个定义的分布被称为指数族分布

定义Θ=dom(b):={θ:b(θ)<∞}\Theta = \text{dom}(b) := \set{\theta : b(\theta) < \infty}Θ=dom(b):={θ:b(θ)<},即让b(θ)b(\theta)b(θ)有限的集合,称为自然参数空间。只有在这个空间内,对应的概率分布才是合法的。它有个很重要的几何特性:

  • Θ\ThetaΘ是一个凸集(convex set)
  • b(⋅)b(\cdot)b()是凸函数

以及b(θ)b(\theta)b(θ)能生成充分统计量T(x)T(x)T(x)的各阶矩:
∇b(θ)=E[T(X)]∇2b(θ)=Cov[T(X)]\nabla b(\theta) = \mathbb{E}[T(X)] \\ \nabla ^2b(\theta ) = \text{Cov}[T(X)] b(θ)=E[T(X)]2b(θ)=Cov[T(X)]

此外,如果我们记dμd\mudμ是典型的Lebesgue测度,记dν=h(x)dμd\nu = h(x)d\mudν=h(x)dμ,则可以把h(x)h(x)h(x)“吸收”掉,然后有:
b=log⁡∫exp⁡(<T(x),θ>)dνb = \log \int \exp(\left<T(x), \theta\right>)d\nu b=logexp(T(x),θ)dν

例子

  • Bernoulli:px(1−p)x=exp⁡[xlog⁡(p1−p)+log(1−p)]p^x(1-p)^x = \exp[x\log(\frac{p}{1-p}) + log(1-p)]px(1p)x=exp[xlog(1pp)+log(1p)]于是T(x)=x,θ=log⁡(p1−p),b(θ)=log⁡(1+eθ)T(x) = x, \theta=\log(\frac{p}{1-p}), b(\theta) = \log(1+e^\theta)T(x)=x,θ=log(1pp),b(θ)=log(1+eθ)
  • Poisson: λxe−λx!=1x!exp⁡[xlog⁡(λ)−λ]\frac{\lambda^xe^{-\lambda}}{x!}=\frac{1}{x!}\exp[x\log(\lambda) - \lambda]x!λxeλ=x!1exp[xlog(λ)λ]
    于是T(x)=x,θ=log⁡(λ),b(θ)=eθ,h(x)=1x!1x∈Z+T(x) = x, \theta=\log(\lambda),b(\theta) = e^\theta, h(x) = \frac{1}{x!}1_{x \in \mathbb{Z}_+}T(x)=x,θ=log(λ),b(θ)=eθ,h(x)=x!11xZ+

更多可能用到的分布

  • Gamma(a, b): f(x;a,b)=baΓ(a)xa−1e−bxf(x;a, b) = \frac{b^a}{\Gamma(a)}x^{a-1}e^{-bx}f(x;a,b)=Γ(a)baxa1ebx
    均值为ab\frac{a}{b}ba,方差为ab2\frac{a}{b^2}b2a
  • Beta(a, b): f(x;a,b)=Γ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1,x∈[0,1]f(x;a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1}(1-x)^{b-1}, x\in [0, 1]f(x;a,b)=Γ(a)Γ(b)Γ(a+b)xa1(1x)b1,x[0,1]
    均值为aa+b\frac{a}{a+b}a+ba,方差为ab(a+b)2(a+b+1)\frac{ab}{(a+b)^2(a+b+1)}(a+b)2(a+b+1)ab
  • Dirichlet(α1,...,αm\alpha_1, ..., \alpha_mα1,...,αm):f(x;α)=Γ(∑mi=1αi)∏mi=1Γ(αi)∏mi=1xiαi−1f(\mathbf{x};\mathbf{\alpha})=\frac{\Gamma(\underset{i=1}{\overset{m}{\sum}}\alpha_i)}{\underset{i=1}{\overset{m}{\prod}}\Gamma(\alpha_i)}\underset{i=1}{\overset{m}{\prod}}x_i^{\alpha_i-1}f(x;α)=i=1mΓ(αi)Γ(i=1mαi)i=1mxiαi1
    概率分布的支撑集为Pm:={x∈Rm:xi≥0,∑xi=1}\mathcal{P}^m := \set{\mathbf{x} \in \mathbb{R}^m: x_i \ge 0, \sum x_i = 1}Pm:={xRm:xi0,xi=1}
    XiX_iXi的均值为αi∑mj=1αj\frac{\alpha_i}{\underset{j=1}{\overset{m}{\sum}}\alpha_j}j=1mαjαi
    它是Beta分布的多元推广

矩/累积量生成函数(Moment/cumulant generating functions)

定义

给定随机变量XXX,定义矩生成函数(MGF):
MX(t):=EX[exp⁡<t,X>]=∫exp⁡<t,X>dF(x)M_X(t) := \mathbb{E}_X[\exp \left<t, X\right>] = \int \exp\left<t, X\right>dF(x) MX(t):=EX[expt,X]=expt,XdF(x)

  • F(x)F(x)F(x)XXX的分布函数
  • t∈Rnt \in \mathbb{R}^ntRn

定义累积量生成函数(CGF):
mX(t):=log⁡MX(t)m_X(t):= \log M_X(t) mX(t):=logMX(t)

  • 这个函数是凸函数(由 Hölder 不等式可证)
  • MX(t)M_X(t)MX(t)并不是总是处处存在

性质

如果MX(t)M_X(t)MX(t)在原点的一个开邻域内存在,则通过求导可以得到各阶矩:
∇M(0)=[EX(exp⁡<t,X>)]t=0′=E[X]∇2M(0)=[EX∇(exp⁡<t,X>X⊤)]t=0=E[XX⊤]\nabla M(0) = [\mathbb{E}_X(\exp\left<t, X\right>)]'_{t=0} = \mathbb{E}[X] \\ \nabla^2 M(0) = [\mathbb{E}_X\nabla(\exp\left<t, X\right>X^\top)]_{t=0} = \mathbb{E}[XX^\top] M(0)=[EX(expt,X)]t=0=E[X]2M(0)=[EX(expt,XX)]t=0=E[XX]
特别的,对于单变量的随机变量XXX,有
E[Xn]=M(n)(0)\mathbb{E}[X^n] = M^{(n)}(0) E[Xn]=M(n)(0)
这基于以下性质:如果MX(t)M_X(t)MX(t)在原点附近存在,则:

  • 所有阶矩都存在
  • 可以交换梯度∇\nabla和期望E\mathbb{E}E(依据控制收敛定理

考虑累积量生成函数m(t)=log⁡M(t)m(t) = \log M(t)m(t)=logM(t),则:
∇m(0)=E[X]∇2m(0)=E[(X−EX)(X−EX)⊤]=Cov(X)\nabla m(0) = \mathbb{E}[X] \\ \nabla^2 m(0) = \mathbb{E}[(X-\mathbb{E}X)(X-\mathbb{E}X)^\top] = \text{Cov}(X) m(0)=E[X]2m(0)=E[(XEX)(XEX)]=Cov(X)

对于指数族分布f(x;θ)=h(x)exp⁡{<T(x),θ>−b(θ)}f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)}f(x;θ)=h(x)exp{T(x),θb(θ)}对任意θ∈Θ\theta \in \ThetaθΘ,充分统计量T(X)T(X)T(X)的累计生成函数在t=0t=0t=0附近存在,且有:
mT(t)=b(θ+t)−b(θ)m_T(t) = b(\theta + t) - b(\theta) mT(t)=b(θ+t)b(θ)

  • 这意味着我们不需要显式地计算期望或方差,就可以通过b(θ)b(\theta)b(θ)得到矩信息。

证明:
MT(t)=∫exp⁡⟨t,T(x)⟩h(x)exp⁡[⟨T(x),θ⟩−b(θ)]dμ(x)=e−b(θ)∫h(x)exp⁡[⟨T(x),θ+t⟩]dμ(x)=e−b(θ)eb(θ+t).\begin{align*} M_T(t) &= \int \exp\langle t, T(x) \rangle h(x) \exp[\langle T(x), \theta \rangle - b(\theta)] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} \int h(x) \exp[\langle T(x), \theta + t \rangle] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} e^{b(\theta + t)}. \end{align*} MT(t)=expt,T(x)⟩h(x)exp[⟨T(x),θb(θ)]dμ(x)=eb(θ)h(x)exp[⟨T(x),θ+t⟩]dμ(x)=eb(θ)eb(θ+t).

因此,∇b(θ)=E[T(X)],∇2b(θ)=Var[T(X)]\nabla b(\theta) = \mathbb{E}[T(X)], \nabla^2 b(\theta) = \text{Var}[T(X)]b(θ)=E[T(X)],2b(θ)=Var[T(X)]

特征函数(Characteristic Function)

定义

特征函数是随机变量XXX的一个工具,定义为:
φX(t):=E[eitX]=∫eitxdF(x),t∈R\varphi_X(t) := \mathbb{E}[e^{itX}] = \int e^{itx}dF(x), t\in \mathbb{R} φX(t):=E[eitX]=eitxdF(x),tR

  • iii是虚数单位
  • F(x)F(x)F(x)是累积分布函数

特征函数本质是随机变量的傅里叶变换,因此它与傅里叶分析密切相关。

性质

  • 存在性:对所有t∈Rt \in \mathbb{R}tR,特征函数都存在
  • 有界性:∣φX(t)∣≤1,φX(0)=1|\varphi_X(t)|\le 1, \varphi_X(0) = 1φX(t)1,φX(0)=1
  • 连续性:特征函数是一致连续的
  • 唯一性:若两个随机变量X,YX, YX,Y的特征函数相等,则它们同分布
  • 如果矩生成函数MX(s)M_X(s)MX(s)存在,则:
    φX(t)=MX(it)\varphi_X(t) = M_X(it) φX(t)=MX(it)
  • 如果E[Xn]\mathbb{E}[X^n]E[Xn]存在,则可以通过对特征函数求导得到:
    E[Xn]=i−nφX(n)(0)\mathbb{E}[X^n] = i^{-n}\varphi_X^{(n)}(0) E[Xn]=inφX(n)(0)
    即:第nnn阶矩等于特征函数在 t=0t=0t=0处的nnn阶导数乘以i−ni^{-n}in

反演公式

对于连续型分布,可以通过特征函数反推出概率密度函数f(x)f(x)f(x)
f(x)=12π∫−∞∞e−itxφX(t)dtf(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(t)dt f(x)=2π1eitxφX(t)dt
这说明:特征函数可以完全刻画分布

例子

  • N(μ,σ2):φX(t)=exp⁡(iμt−σ2t22)\mathcal{N}(\mu, \sigma^2): \varphi_X(t) = \exp(i\mu t - \frac{\sigma^2 t^2}{2})N(μ,σ2):φX(t)=exp(iμt2σ2t2)
  • Ber(p)\text{Ber}(p)Ber(p): φX(t)=1−p+peit\varphi_X(t) = 1 - p + pe^{it}φX(t)=1p+peit
  • Poi(λ)\text{Poi}(\lambda)Poi(λ): φX(t)=exp⁡(λ(eit−1))\varphi_X(t) = \exp(\lambda(e^{it} - 1))φX(t)=exp(λ(eit1))
  • Exp(λ)\text{Exp}(\lambda)Exp(λ): φX(t)=λλ−it\varphi_X(t) = \frac{\lambda}{\lambda - it}φX(t)=λitλ
  • Cauchy(μ,γ)\text{Cauchy}(\mu, \gamma)Cauchy(μ,γ):
    f(x)=1π[γ+(x−μ)2/γ]φX(t)=exp⁡(iμt−γ∣t∣)f(x) = \frac{1}{\pi [\gamma + (x-\mu)^2 / \gamma]} \\ \varphi_X(t) = \exp(i\mu t - \gamma|t|) f(x)=π[γ+(xμ)2/γ]1φX(t)=exp(iμtγt)
    注意它没有MGF

共轭先验(Conjugate priors)

给出任意指数族分布
f(x;θ)=h(x)exp⁡[<T(x),θ>−b(θ)]f(x; \theta) = h(x)\exp[\left<T(x), \theta\right> - b(\theta)]f(x;θ)=h(x)exp[T(x),θb(θ)]
设一系列随机变量Xi∼i.i.d.fX_i \overset{i.i.d.}{\sim} fXii.i.d.f,则联合分布为:
f(x1,...,xn∣θ)=h(x)nexp⁡[<∑T(xi),θ>−nb(θ)]f(x_1, ..., x_n\mid \theta) = h(x)^n\exp\left[\left<\sum T(x_i), \theta\right> - nb(\theta)\right] f(x1,...,xnθ)=h(x)nexp[T(xi),θnb(θ)]
我们选取一个先验分布:
f(θ;τ,n0)=H(τ,n0)exp⁡[<θ,τ>−n0b(θ)]f(\theta; \tau, n_0) = H(\tau, n_0)\exp[\left<\theta, \tau\right> - n_0 b(\theta)] f(θ;τ,n0)=H(τ,n0)exp[θ,τn0b(θ)]

  • τ,n0\tau, n_0τ,n0是超参数
  • 底层测度是Lebesgue测度

然后会发现后验分布遵循一样的族:
f(θ∣x1,...,xn)=f(θ;τ)f(x1,...,xn∣θ)f(x)∝exp⁡[<θ,τ+∑T(xi)>−(n+n0)b(θ)]\begin{align*} f(\theta \mid x_1, ..., x_n) &= \frac{f(\theta; \tau)f(x_1, ..., x_n \mid \theta)}{f(x)} \\ & \propto \exp\left[\left<\theta, \tau + \sum T(x_i)\right> - (n+n_0)b(\theta)\right] \end{align*} f(θx1,...,xn)=f(x)f(θ;τ)f(x1,...,xnθ)exp[θ,τ+T(xi)(n+n0)b(θ)]

Bregman散度(Bregman divergence)

定义

对于一个连续可微且严格凸函数f:Ω→Rf: \Omega \to \mathbb{R}f:ΩR,其Bregman散度定义为:
Df(x,y)=Δf(x)−f(y)−<∇f(y),x−y>,∀x,y∈Ω\mathbf{D}_f(x, y) \overset{\Delta}{=} f(x) - f(y) - \left<\nabla f(y), x-y\right>, \forall x, y \in \Omega Df(x,y)=Δf(x)f(y)f(y),xy,x,yΩ

称它为散度的原因是它满足Df(x,y)>0,∀x≠y\mathbf{D}_f(x, y) > 0, \forall x \neq yDf(x,y)>0,x=y

例子

  • D∥⋅∥22/2(x,y)=∥x−y∥22/2≡D2(metric2)\mathbf{D}_{\|\cdot\|_2^2/2}(x, y) = \|x-y\|_2^2 / 2 \equiv \mathbf{D}_2 (\text{metric}^2)D22/2(x,y)=xy22/2D2(metric2)
    即选择凸函数f(x)=12∥x∥22f(x) = \frac{1}{2}\|x\|_2^2f(x)=21x22时,对应的Bregman散度成了欧几里得距离的平方的一半。
  • φ(p)=∑pilog⁡pi\varphi(p) = \sum p_i \log p_iφ(p)=pilogpi(负熵)。则我们可以得到KL散度为:
    Dφ(p,q)=∑pilog⁡pi−∑qilog⁡qi−<1+log⁡q,p−q>=∑pilog⁡(pi/qi)−pi+qi=∑pilog⁡(pi/qi)if ∑pi=∑qi=1\begin{align*} \mathbf{D}_\varphi(p, q) &= \sum p_i \log p_i - \sum q_i\log q_i - \left<1+\log q, p-q\right> \\ &= \sum p_i \log(p_i / q_i) - p_i + q_i \\ &= \sum p_i\log(p_i / q_i) \text{ if } \sum p_i = \sum q_i = 1 \end{align*} Dφ(p,q)=pilogpiqilogqi1+logq,pq=pilog(pi/qi)pi+qi=pilog(pi/qi) if pi=qi=1

性质

φ,ϕ,ψ\varphi, \phi, \psiφ,ϕ,ψ是可微的且严格凸的,则

  • Dφ(⋅,y)\mathbf{D}_\varphi(\cdot, y)Dφ(,y)是严格凸的,如果给定y∈Ωy \in \OmegayΩ
  • ∇xDφ(x,y)=∇φ(x)−∇φ(y)\nabla_x \mathbf{D}_\varphi(x, y) = \nabla \varphi(x) - \nabla \varphi(y)xDφ(x,y)=φ(x)φ(y)
  • Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)\mathbf{D}_{a\varphi + \phi}(x, y) = a\mathbf{D}_\varphi(x, y) + \mathbf{D}_{\phi}(x, y)Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)
  • Dφ(x,y)=Dφ(x,z)−Dφ(y,z)−<x−y,∇φ(y)−∇φ(z)>\mathbf{D}_\varphi(x, y) = \mathbf{D}_\varphi(x, z) - \mathbf{D}_\varphi(y, z) - \left<x-y, \nabla \varphi(y) - \nabla \varphi(z)\right>Dφ(x,y)=Dφ(x,z)Dφ(y,z)xy,φ(y)φ(z)

Fenchel 共轭(Fenchel Conjugate)

给定函数φ:Rn→R‾\varphi: \mathbb{R}^n \to \overline{\mathbb{R}}φ:RnR(不一定是凸函数),其Fenchel共轭定义为:
φ∗(z)=sup⁡x<z,x>−φ(x)\varphi^*(z) = \sup_x\left<z, x\right> - \varphi(x) φ(z)=xsupz,xφ(x)
这是一个标准的对偶变换

如果我们假设domφ=Rn\text{dom} \varphi = \mathbb{R}^ndomφ=Rn(即全空间有定义),且φ\varphiφ严格凸,φ∈C1\varphi \in C^1φC1(一阶可微),则保证了下面结论的成立:

梯度与共轭的关系

对任意z∈(domφ∗)∘z \in (\text{dom}\varphi^*)^{\circ}z(domφ)(内部点),存在唯一的有限的xxx满足:
z=∇φ(x)or x=(∇φ)−1(z)z = \nabla \varphi(x) \text{ or } x=(\nabla\varphi)^{-1}(z) z=φ(x) or x=(φ)1(z)
这意味着梯度映射∇φ\nabla \varphiφ是从xxxzzz的一一对应。定义对偶点x∗=∇φ(x)x^* = \nabla \varphi(x)x=φ(x),则映射∇φ\nabla\varphiφ有逆:
x↦x∗=∇φ(x)x∗↦x=∇φ∗(x∗)x \mapsto x^* = \nabla \varphi(x) \\ x^* \mapsto x = \nabla \varphi^*(x^*) xx=φ(x)xx=φ(x)
所以
∇φ∗(∇φ(x))=x∇φ(∇φ∗(x∗))=x∗\nabla \varphi^*(\nabla \varphi(x)) = x \\ \nabla \varphi(\nabla \varphi^*(x^*)) = x^* φ(φ(x))=xφ(φ(x))=x

Legendre-Fenchel 对偶恒等式

φ∗(x∗)+φ(x)=<x,x∗>\varphi^*(x^*) + \varphi(x) = \left<x, x^*\right> φ(x)+φ(x)=x,x

注意,即使没有“严格凸”的条件,仍有Fenchel不等式成立:
<x,y>≤f(x)+f∗(y)\left<x, y\right> \le f(x) + f^*(y) x,yf(x)+f(y)
取等号条件为:

  • fff是适当凸函数(proper convex)
  • y∈∂f(x)y \in \partial f(x)yf(x)

Bregman散度的对偶性

我们有关键结论:共轭上的Bregman散度相等
x∗=∇φ(x),y∗=∇φ(y)x^* = \nabla \varphi(x), y^* = \nabla \varphi(y)x=φ(x),y=φ(y),则有:
Dφ(x,y)=Dφ∗(y∗,x∗)\mathbf{D}_\varphi(x, y) = \mathbf{D}_{\varphi^*}(y^*, x^*) Dφ(x,y)=Dφ(y,x)
这说明一种对称性:虽然Bregman本身不对称,但通过共轭可以建立一种“对偶对称”

指数族 & Bregman散度

设概率密度函数为:
f(y∣θ)=h(y)exp⁡(y⊤θ−b(θ))f(y\mid \theta) = h(y)\exp(y^\top \theta - b(\theta)) f(yθ)=h(y)exp(yθb(θ))
定义域domb={θ∈Rn:b(θ)<+∞}\text{dom}b = \set{\theta \in \mathbb{R}^n: b(\theta) < +\infty}domb={θRn:b(θ)<+}是开集,于是对φ=b∗\varphi = b^*φ=b,有:
μ(θ):=E(y)=∇b(θ)−log⁡f(y∣θ)=Dφ(y,μ(θ))+c(y)\mu(\theta) := \mathbb{E}(y) = \nabla b(\theta) \\ -\log f(y\mid \theta) = \mathbf{D}_\varphi(y, \mu(\theta)) + c(y) μ(θ):=E(y)=b(θ)logf(yθ)=Dφ(y,μ(θ))+c(y)
其中c(y)c(y)c(y)不依赖于θ\thetaθ,这说明负对数似然可以分解为一个 Bregman 散度 加上一个仅依赖于yyy的项。
所以,负对数似然 ≈ Bregman 散度(从观测值到期望值的距离)

同时我们有∀g∈∂φ,Dφ(y,μ(θ))=△b(θ,g(y))\forall g \in \partial \varphi, D_\varphi (y, \mu(\theta)) = \triangle _b(\theta, g(y))gφ,Dφ(y,μ(θ))=b(θ,g(y))
如果b∈C(1)b\in \mathcal{C}^{(1)}bC(1)且是严格凸的,g=∇φ=(∇b)−1g = \nabla \varphi = (\nabla b)^{-1}g=φ=(b)1
Dφ(y,μ(θ))=Db(θ,g(y))\mathbf{D}_\varphi(y, \mu(\theta)) = \mathbf{D}_b(\theta, g(y)) Dφ(y,μ(θ))=Db(θ,g(y))

证明:
−<y,θ>+b(θ)=−<y,θ>+{<μ,θ>−φ(μ)}=−φ(μ)−<y−μ,θ>=−φ(μ)−<y−μ,∇φ(μ)>=Dφ(y,μ)−φ(y)\begin{align*} -\left<y, \theta\right> + b(\theta) &= -\left<y, \theta\right> + \set{\left<\mu, \theta\right> - \varphi(\mu)} \\ &= -\varphi(\mu) - \left<y-\mu, \theta\right> \\ &= -\varphi(\mu) - \left<y-\mu, \nabla \varphi(\mu)\right> \\ &= \mathbf{D}_\varphi(y, \mu) - \varphi(y) \end{align*} y,θ+b(θ)=y,θ+{μ,θφ(μ)}=φ(μ)yμ,θ=φ(μ)yμ,φ(μ)=Dφ(y,μ)φ(y)

熵(Entropy)

对于概率向量y∈Pny \in \mathcal{P}^nyPn(即所有分量非负且和为1的向量),其对应的随机变量的熵定义为:
H(y):=−∑yilog⁡yiH(y) := -\sum y_i\log y_i H(y):=yilogyi
通常我们会选用负熵−H(y)-H(y)H(y)来做优化。

连续情况下:H(p)=−∫p(x)log⁡p(x)dxH(p) = -\int p(x) \log p(x) dxH(p)=p(x)logp(x)dx

KL散度(Kullback-Leibler Divergence)

定义两个离散概率分布pppqqq之间的KL散度为:
K(p∥q)=∑pilog⁡piqiK(p \| q) = \sum p_i \log \frac{p_i}{q_i} K(pq)=pilogqipi
这也被称为相对熵(relative entropy)

  • 有限性条件:当qi=0q_i=0qi=0,必须有pi=0p_i=0pi=0,否则KL散度为无穷大,同时约定0log⁡0=00\log 0 = 00log0=0
  • 非归一化形式:
    K(p∥q)=∑{pilog⁡piqi−pi+qi}K(p \| q) = \sum \set{p_i\log \frac{p_i}{q_i} - p_i + q_i} K(pq)={pilogqipipi+qi}
    这是函数∑tilog⁡ti\sum t_i\log t_itilogti的Bregman散度。

等价表示:
K(p∥q)=−∑pilog⁡qi+∑pilog⁡pi=H(p,q)−H(p)K(p\| q) = -\sum p_i \log q_i + \sum p_i\log p_i = H(p, q) - H(p)K(pq)=pilogqi+pilogpi=H(p,q)H(p)
其中:

  • H(p,q)=−∑pilog⁡qiH(p ,q) = -\sum p_i \log q_iH(p,q)=pilogqi被称为交叉熵(cross-entropy)
  • H(p)H(p)H(p)ppp的熵

连续情况下:K(p∥q)=∫p(x)log⁡(p(x)q(x))dxK(p\|q) = \int p(x) \log \left(\frac{p(x)}{q(x)}\right)dxK(pq)=p(x)log(q(x)p(x))dx

http://www.dtcms.com/a/532078.html

相关文章:

  • 【硬件基础篇】:CPU如何被制造出来
  • 面向模块的综合技术之控制集优化(七)
  • 做网站广告软件网站系统设计目标
  • 使用稀疏采样方法减轻汽车雷达干扰——论文阅读
  • 阮一峰《TypeScript 教程》学习笔记——d.ts 类型声明文件
  • Spring AOP:横切关注点的优雅解决方案
  • 如何申请网站空间和注册域名鞋子软文推广300字
  • 基于AutoDL远端服务器在pycharm复现:具身智能论文pai0
  • 如何看访问网站的dns网站开发难不难
  • 数据结构·堆
  • 阮一峰《TypeScript 教程》学习笔记——类型映射
  • 需要做网站建设和推广网站地图插件
  • PyCharm 设置 Tabs and Indents
  • Spring Boot3零基础教程,生命周期监听,自定义监听器,笔记59
  • 【SpringBoot】详解Maven的操作与配置
  • 【C++】STL容器--priority_queue的使用与模拟实现
  • 【系统分析师】高分论文:论需求分析方法及应用(电子商务门户网站系统)
  • 【大模型应用开发 6.LangChain多任务应用开发】
  • 泰安最好的网站建设公司怎么通过做网站赚钱吗
  • 初识C语言15.文件操作
  • 聊聊连续、递增
  • 9款上班打卡软件测评:帮你选出最适合企业的工具
  • 建站服务网络公司建设宣传网站上的请示
  • Mem0 使用案例学习总结 - 记忆化应用结构
  • 如何自动清理 Linux 临时文件 ?
  • C++容器forward_list
  • 茂名网站建设培训品牌宣传网站
  • 油漆工找活做的网站网站免费建设
  • TcpClinet
  • Appium+Python+Android+Nodejs环境安装