【课堂笔记】概率论-3
文章目录
- 指数族分布
- 定义
- 例子
- 更多可能用到的分布
- 矩/累积量生成函数(Moment/cumulant generating functions)
- 定义
- 性质
- 特征函数(Characteristic Function)
- 定义
- 性质
- 反演公式
- 例子
- 共轭先验(Conjugate priors)
- Bregman散度(Bregman divergence)
- 定义
- 例子
- 性质
- Fenchel 共轭(Fenchel Conjugate)
- 梯度与共轭的关系
- **Legendre-Fenchel 对偶恒等式**:
- Bregman散度的对偶性
- 指数族 & Bregman散度
- 熵(Entropy)
- KL散度(Kullback-Leibler Divergence)
指数族分布
定义
我们给出一类概率分布的通用表达式:
f(x;θ)=h(x)exp{<T(x),θ>−b(θ)}f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}
- θ\thetaθ:自然参数(natural parameter)
- f(x;θ)f(x;\theta)f(x;θ):参数为θ\thetaθ的概率密度函数(相对于某个基测度μ(dx)\mu(dx)μ(dx))
- h(x)≥0h(x)\ge 0h(x)≥0:编码数据的支持集(support),即哪些xxx的值是可能的,它不依赖于θ\thetaθ
- T(x)T(x)T(x):充分统计量(sufficient statistics),提取数据中的关键信息
- b(θ)b(\theta)b(θ):累积量函数(cumulant function),它确保了概率密度函数可以被归一化(即积分等于1)
满足这个定义的分布被称为指数族分布
定义Θ=dom(b):={θ:b(θ)<∞}\Theta = \text{dom}(b) := \set{\theta : b(\theta) < \infty}Θ=dom(b):={θ:b(θ)<∞},即让b(θ)b(\theta)b(θ)有限的集合,称为自然参数空间。只有在这个空间内,对应的概率分布才是合法的。它有个很重要的几何特性:
- Θ\ThetaΘ是一个凸集(convex set)
- b(⋅)b(\cdot)b(⋅)是凸函数
以及b(θ)b(\theta)b(θ)能生成充分统计量T(x)T(x)T(x)的各阶矩:
∇b(θ)=E[T(X)]∇2b(θ)=Cov[T(X)]\nabla b(\theta) = \mathbb{E}[T(X)] \\ \nabla ^2b(\theta ) = \text{Cov}[T(X)] ∇b(θ)=E[T(X)]∇2b(θ)=Cov[T(X)]
此外,如果我们记dμd\mudμ是典型的Lebesgue测度,记dν=h(x)dμd\nu = h(x)d\mudν=h(x)dμ,则可以把h(x)h(x)h(x)“吸收”掉,然后有:
b=log∫exp(<T(x),θ>)dνb = \log \int \exp(\left<T(x), \theta\right>)d\nu b=log∫exp(⟨T(x),θ⟩)dν
例子
- Bernoulli:px(1−p)x=exp[xlog(p1−p)+log(1−p)]p^x(1-p)^x = \exp[x\log(\frac{p}{1-p}) + log(1-p)]px(1−p)x=exp[xlog(1−pp)+log(1−p)]于是T(x)=x,θ=log(p1−p),b(θ)=log(1+eθ)T(x) = x, \theta=\log(\frac{p}{1-p}), b(\theta) = \log(1+e^\theta)T(x)=x,θ=log(1−pp),b(θ)=log(1+eθ)
- Poisson: λxe−λx!=1x!exp[xlog(λ)−λ]\frac{\lambda^xe^{-\lambda}}{x!}=\frac{1}{x!}\exp[x\log(\lambda) - \lambda]x!λxe−λ=x!1exp[xlog(λ)−λ]
于是T(x)=x,θ=log(λ),b(θ)=eθ,h(x)=1x!1x∈Z+T(x) = x, \theta=\log(\lambda),b(\theta) = e^\theta, h(x) = \frac{1}{x!}1_{x \in \mathbb{Z}_+}T(x)=x,θ=log(λ),b(θ)=eθ,h(x)=x!11x∈Z+
更多可能用到的分布
- Gamma(a, b): f(x;a,b)=baΓ(a)xa−1e−bxf(x;a, b) = \frac{b^a}{\Gamma(a)}x^{a-1}e^{-bx}f(x;a,b)=Γ(a)baxa−1e−bx
均值为ab\frac{a}{b}ba,方差为ab2\frac{a}{b^2}b2a - Beta(a, b): f(x;a,b)=Γ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1,x∈[0,1]f(x;a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1}(1-x)^{b-1}, x\in [0, 1]f(x;a,b)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1,x∈[0,1]
均值为aa+b\frac{a}{a+b}a+ba,方差为ab(a+b)2(a+b+1)\frac{ab}{(a+b)^2(a+b+1)}(a+b)2(a+b+1)ab - Dirichlet(α1,...,αm\alpha_1, ..., \alpha_mα1,...,αm):f(x;α)=Γ(∑mi=1αi)∏mi=1Γ(αi)∏mi=1xiαi−1f(\mathbf{x};\mathbf{\alpha})=\frac{\Gamma(\underset{i=1}{\overset{m}{\sum}}\alpha_i)}{\underset{i=1}{\overset{m}{\prod}}\Gamma(\alpha_i)}\underset{i=1}{\overset{m}{\prod}}x_i^{\alpha_i-1}f(x;α)=i=1∏mΓ(αi)Γ(i=1∑mαi)i=1∏mxiαi−1
概率分布的支撑集为Pm:={x∈Rm:xi≥0,∑xi=1}\mathcal{P}^m := \set{\mathbf{x} \in \mathbb{R}^m: x_i \ge 0, \sum x_i = 1}Pm:={x∈Rm:xi≥0,∑xi=1}
XiX_iXi的均值为αi∑mj=1αj\frac{\alpha_i}{\underset{j=1}{\overset{m}{\sum}}\alpha_j}j=1∑mαjαi
它是Beta分布的多元推广
矩/累积量生成函数(Moment/cumulant generating functions)
定义
给定随机变量XXX,定义矩生成函数(MGF):
MX(t):=EX[exp<t,X>]=∫exp<t,X>dF(x)M_X(t) := \mathbb{E}_X[\exp \left<t, X\right>] = \int \exp\left<t, X\right>dF(x) MX(t):=EX[exp⟨t,X⟩]=∫exp⟨t,X⟩dF(x)
- F(x)F(x)F(x)是XXX的分布函数
- t∈Rnt \in \mathbb{R}^nt∈Rn
定义累积量生成函数(CGF):
mX(t):=logMX(t)m_X(t):= \log M_X(t) mX(t):=logMX(t)
- 这个函数是凸函数(由 Hölder 不等式可证)
- MX(t)M_X(t)MX(t)并不是总是处处存在
性质
如果MX(t)M_X(t)MX(t)在原点的一个开邻域内存在,则通过求导可以得到各阶矩:
∇M(0)=[EX(exp<t,X>)]t=0′=E[X]∇2M(0)=[EX∇(exp<t,X>X⊤)]t=0=E[XX⊤]\nabla M(0) = [\mathbb{E}_X(\exp\left<t, X\right>)]'_{t=0} = \mathbb{E}[X] \\ \nabla^2 M(0) = [\mathbb{E}_X\nabla(\exp\left<t, X\right>X^\top)]_{t=0} = \mathbb{E}[XX^\top] ∇M(0)=[EX(exp⟨t,X⟩)]t=0′=E[X]∇2M(0)=[EX∇(exp⟨t,X⟩X⊤)]t=0=E[XX⊤]
特别的,对于单变量的随机变量XXX,有
E[Xn]=M(n)(0)\mathbb{E}[X^n] = M^{(n)}(0) E[Xn]=M(n)(0)
这基于以下性质:如果MX(t)M_X(t)MX(t)在原点附近存在,则:
- 所有阶矩都存在
- 可以交换梯度∇\nabla∇和期望E\mathbb{E}E(依据控制收敛定理)
考虑累积量生成函数m(t)=logM(t)m(t) = \log M(t)m(t)=logM(t),则:
∇m(0)=E[X]∇2m(0)=E[(X−EX)(X−EX)⊤]=Cov(X)\nabla m(0) = \mathbb{E}[X] \\ \nabla^2 m(0) = \mathbb{E}[(X-\mathbb{E}X)(X-\mathbb{E}X)^\top] = \text{Cov}(X) ∇m(0)=E[X]∇2m(0)=E[(X−EX)(X−EX)⊤]=Cov(X)
对于指数族分布f(x;θ)=h(x)exp{<T(x),θ>−b(θ)}f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)}f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}对任意θ∈Θ\theta \in \Thetaθ∈Θ,充分统计量T(X)T(X)T(X)的累计生成函数在t=0t=0t=0附近存在,且有:
mT(t)=b(θ+t)−b(θ)m_T(t) = b(\theta + t) - b(\theta) mT(t)=b(θ+t)−b(θ)
- 这意味着我们不需要显式地计算期望或方差,就可以通过b(θ)b(\theta)b(θ)得到矩信息。
证明:
MT(t)=∫exp⟨t,T(x)⟩h(x)exp[⟨T(x),θ⟩−b(θ)]dμ(x)=e−b(θ)∫h(x)exp[⟨T(x),θ+t⟩]dμ(x)=e−b(θ)eb(θ+t).\begin{align*} M_T(t) &= \int \exp\langle t, T(x) \rangle h(x) \exp[\langle T(x), \theta \rangle - b(\theta)] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} \int h(x) \exp[\langle T(x), \theta + t \rangle] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} e^{b(\theta + t)}. \end{align*} MT(t)=∫exp⟨t,T(x)⟩h(x)exp[⟨T(x),θ⟩−b(θ)]dμ(x)=e−b(θ)∫h(x)exp[⟨T(x),θ+t⟩]dμ(x)=e−b(θ)eb(θ+t).
因此,∇b(θ)=E[T(X)],∇2b(θ)=Var[T(X)]\nabla b(\theta) = \mathbb{E}[T(X)], \nabla^2 b(\theta) = \text{Var}[T(X)]∇b(θ)=E[T(X)],∇2b(θ)=Var[T(X)]
特征函数(Characteristic Function)
定义
特征函数是随机变量XXX的一个工具,定义为:
φX(t):=E[eitX]=∫eitxdF(x),t∈R\varphi_X(t) := \mathbb{E}[e^{itX}] = \int e^{itx}dF(x), t\in \mathbb{R} φX(t):=E[eitX]=∫eitxdF(x),t∈R
- iii是虚数单位
- F(x)F(x)F(x)是累积分布函数
特征函数本质是随机变量的傅里叶变换,因此它与傅里叶分析密切相关。
性质
- 存在性:对所有t∈Rt \in \mathbb{R}t∈R,特征函数都存在
- 有界性:∣φX(t)∣≤1,φX(0)=1|\varphi_X(t)|\le 1, \varphi_X(0) = 1∣φX(t)∣≤1,φX(0)=1
- 连续性:特征函数是一致连续的
- 唯一性:若两个随机变量X,YX, YX,Y的特征函数相等,则它们同分布
- 如果矩生成函数MX(s)M_X(s)MX(s)存在,则:
φX(t)=MX(it)\varphi_X(t) = M_X(it) φX(t)=MX(it) - 如果E[Xn]\mathbb{E}[X^n]E[Xn]存在,则可以通过对特征函数求导得到:
E[Xn]=i−nφX(n)(0)\mathbb{E}[X^n] = i^{-n}\varphi_X^{(n)}(0) E[Xn]=i−nφX(n)(0)
即:第nnn阶矩等于特征函数在 t=0t=0t=0处的nnn阶导数乘以i−ni^{-n}i−n
反演公式
对于连续型分布,可以通过特征函数反推出概率密度函数f(x)f(x)f(x):
f(x)=12π∫−∞∞e−itxφX(t)dtf(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(t)dt f(x)=2π1∫−∞∞e−itxφX(t)dt
这说明:特征函数可以完全刻画分布
例子
- N(μ,σ2):φX(t)=exp(iμt−σ2t22)\mathcal{N}(\mu, \sigma^2): \varphi_X(t) = \exp(i\mu t - \frac{\sigma^2 t^2}{2})N(μ,σ2):φX(t)=exp(iμt−2σ2t2)
- Ber(p)\text{Ber}(p)Ber(p): φX(t)=1−p+peit\varphi_X(t) = 1 - p + pe^{it}φX(t)=1−p+peit
- Poi(λ)\text{Poi}(\lambda)Poi(λ): φX(t)=exp(λ(eit−1))\varphi_X(t) = \exp(\lambda(e^{it} - 1))φX(t)=exp(λ(eit−1))
- Exp(λ)\text{Exp}(\lambda)Exp(λ): φX(t)=λλ−it\varphi_X(t) = \frac{\lambda}{\lambda - it}φX(t)=λ−itλ
- Cauchy(μ,γ)\text{Cauchy}(\mu, \gamma)Cauchy(μ,γ):
f(x)=1π[γ+(x−μ)2/γ]φX(t)=exp(iμt−γ∣t∣)f(x) = \frac{1}{\pi [\gamma + (x-\mu)^2 / \gamma]} \\ \varphi_X(t) = \exp(i\mu t - \gamma|t|) f(x)=π[γ+(x−μ)2/γ]1φX(t)=exp(iμt−γ∣t∣)
注意它没有MGF
共轭先验(Conjugate priors)
给出任意指数族分布
f(x;θ)=h(x)exp[<T(x),θ>−b(θ)]f(x; \theta) = h(x)\exp[\left<T(x), \theta\right> - b(\theta)]f(x;θ)=h(x)exp[⟨T(x),θ⟩−b(θ)]
设一系列随机变量Xi∼i.i.d.fX_i \overset{i.i.d.}{\sim} fXi∼i.i.d.f,则联合分布为:
f(x1,...,xn∣θ)=h(x)nexp[<∑T(xi),θ>−nb(θ)]f(x_1, ..., x_n\mid \theta) = h(x)^n\exp\left[\left<\sum T(x_i), \theta\right> - nb(\theta)\right] f(x1,...,xn∣θ)=h(x)nexp[⟨∑T(xi),θ⟩−nb(θ)]
我们选取一个先验分布:
f(θ;τ,n0)=H(τ,n0)exp[<θ,τ>−n0b(θ)]f(\theta; \tau, n_0) = H(\tau, n_0)\exp[\left<\theta, \tau\right> - n_0 b(\theta)] f(θ;τ,n0)=H(τ,n0)exp[⟨θ,τ⟩−n0b(θ)]
- τ,n0\tau, n_0τ,n0是超参数
- 底层测度是Lebesgue测度
然后会发现后验分布遵循一样的族:
f(θ∣x1,...,xn)=f(θ;τ)f(x1,...,xn∣θ)f(x)∝exp[<θ,τ+∑T(xi)>−(n+n0)b(θ)]\begin{align*} f(\theta \mid x_1, ..., x_n) &= \frac{f(\theta; \tau)f(x_1, ..., x_n \mid \theta)}{f(x)} \\ & \propto \exp\left[\left<\theta, \tau + \sum T(x_i)\right> - (n+n_0)b(\theta)\right] \end{align*} f(θ∣x1,...,xn)=f(x)f(θ;τ)f(x1,...,xn∣θ)∝exp[⟨θ,τ+∑T(xi)⟩−(n+n0)b(θ)]
Bregman散度(Bregman divergence)
定义
对于一个连续可微且严格凸函数f:Ω→Rf: \Omega \to \mathbb{R}f:Ω→R,其Bregman散度定义为:
Df(x,y)=Δf(x)−f(y)−<∇f(y),x−y>,∀x,y∈Ω\mathbf{D}_f(x, y) \overset{\Delta}{=} f(x) - f(y) - \left<\nabla f(y), x-y\right>, \forall x, y \in \Omega Df(x,y)=Δf(x)−f(y)−⟨∇f(y),x−y⟩,∀x,y∈Ω
称它为散度的原因是它满足Df(x,y)>0,∀x≠y\mathbf{D}_f(x, y) > 0, \forall x \neq yDf(x,y)>0,∀x=y
例子
- D∥⋅∥22/2(x,y)=∥x−y∥22/2≡D2(metric2)\mathbf{D}_{\|\cdot\|_2^2/2}(x, y) = \|x-y\|_2^2 / 2 \equiv \mathbf{D}_2 (\text{metric}^2)D∥⋅∥22/2(x,y)=∥x−y∥22/2≡D2(metric2)
即选择凸函数f(x)=12∥x∥22f(x) = \frac{1}{2}\|x\|_2^2f(x)=21∥x∥22时,对应的Bregman散度成了欧几里得距离的平方的一半。 - 设φ(p)=∑pilogpi\varphi(p) = \sum p_i \log p_iφ(p)=∑pilogpi(负熵)。则我们可以得到KL散度为:
Dφ(p,q)=∑pilogpi−∑qilogqi−<1+logq,p−q>=∑pilog(pi/qi)−pi+qi=∑pilog(pi/qi)if ∑pi=∑qi=1\begin{align*} \mathbf{D}_\varphi(p, q) &= \sum p_i \log p_i - \sum q_i\log q_i - \left<1+\log q, p-q\right> \\ &= \sum p_i \log(p_i / q_i) - p_i + q_i \\ &= \sum p_i\log(p_i / q_i) \text{ if } \sum p_i = \sum q_i = 1 \end{align*} Dφ(p,q)=∑pilogpi−∑qilogqi−⟨1+logq,p−q⟩=∑pilog(pi/qi)−pi+qi=∑pilog(pi/qi) if ∑pi=∑qi=1
性质
设φ,ϕ,ψ\varphi, \phi, \psiφ,ϕ,ψ是可微的且严格凸的,则
- Dφ(⋅,y)\mathbf{D}_\varphi(\cdot, y)Dφ(⋅,y)是严格凸的,如果给定y∈Ωy \in \Omegay∈Ω
- ∇xDφ(x,y)=∇φ(x)−∇φ(y)\nabla_x \mathbf{D}_\varphi(x, y) = \nabla \varphi(x) - \nabla \varphi(y)∇xDφ(x,y)=∇φ(x)−∇φ(y)
- Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)\mathbf{D}_{a\varphi + \phi}(x, y) = a\mathbf{D}_\varphi(x, y) + \mathbf{D}_{\phi}(x, y)Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)
- Dφ(x,y)=Dφ(x,z)−Dφ(y,z)−<x−y,∇φ(y)−∇φ(z)>\mathbf{D}_\varphi(x, y) = \mathbf{D}_\varphi(x, z) - \mathbf{D}_\varphi(y, z) - \left<x-y, \nabla \varphi(y) - \nabla \varphi(z)\right>Dφ(x,y)=Dφ(x,z)−Dφ(y,z)−⟨x−y,∇φ(y)−∇φ(z)⟩
Fenchel 共轭(Fenchel Conjugate)
给定函数φ:Rn→R‾\varphi: \mathbb{R}^n \to \overline{\mathbb{R}}φ:Rn→R(不一定是凸函数),其Fenchel共轭定义为:
φ∗(z)=supx<z,x>−φ(x)\varphi^*(z) = \sup_x\left<z, x\right> - \varphi(x) φ∗(z)=xsup⟨z,x⟩−φ(x)
这是一个标准的对偶变换
如果我们假设domφ=Rn\text{dom} \varphi = \mathbb{R}^ndomφ=Rn(即全空间有定义),且φ\varphiφ严格凸,φ∈C1\varphi \in C^1φ∈C1(一阶可微),则保证了下面结论的成立:
梯度与共轭的关系
对任意z∈(domφ∗)∘z \in (\text{dom}\varphi^*)^{\circ}z∈(domφ∗)∘(内部点),存在唯一的有限的xxx满足:
z=∇φ(x)or x=(∇φ)−1(z)z = \nabla \varphi(x) \text{ or } x=(\nabla\varphi)^{-1}(z) z=∇φ(x) or x=(∇φ)−1(z)
这意味着梯度映射∇φ\nabla \varphi∇φ是从xxx到zzz的一一对应。定义对偶点x∗=∇φ(x)x^* = \nabla \varphi(x)x∗=∇φ(x),则映射∇φ\nabla\varphi∇φ有逆:
x↦x∗=∇φ(x)x∗↦x=∇φ∗(x∗)x \mapsto x^* = \nabla \varphi(x) \\ x^* \mapsto x = \nabla \varphi^*(x^*) x↦x∗=∇φ(x)x∗↦x=∇φ∗(x∗)
所以
∇φ∗(∇φ(x))=x∇φ(∇φ∗(x∗))=x∗\nabla \varphi^*(\nabla \varphi(x)) = x \\ \nabla \varphi(\nabla \varphi^*(x^*)) = x^* ∇φ∗(∇φ(x))=x∇φ(∇φ∗(x∗))=x∗
Legendre-Fenchel 对偶恒等式:
φ∗(x∗)+φ(x)=<x,x∗>\varphi^*(x^*) + \varphi(x) = \left<x, x^*\right> φ∗(x∗)+φ(x)=⟨x,x∗⟩
注意,即使没有“严格凸”的条件,仍有Fenchel不等式成立:
<x,y>≤f(x)+f∗(y)\left<x, y\right> \le f(x) + f^*(y) ⟨x,y⟩≤f(x)+f∗(y)
取等号条件为:
- fff是适当凸函数(proper convex)
- y∈∂f(x)y \in \partial f(x)y∈∂f(x)
Bregman散度的对偶性
我们有关键结论:共轭上的Bregman散度相等
设x∗=∇φ(x),y∗=∇φ(y)x^* = \nabla \varphi(x), y^* = \nabla \varphi(y)x∗=∇φ(x),y∗=∇φ(y),则有:
Dφ(x,y)=Dφ∗(y∗,x∗)\mathbf{D}_\varphi(x, y) = \mathbf{D}_{\varphi^*}(y^*, x^*) Dφ(x,y)=Dφ∗(y∗,x∗)
这说明一种对称性:虽然Bregman本身不对称,但通过共轭可以建立一种“对偶对称”
指数族 & Bregman散度
设概率密度函数为:
f(y∣θ)=h(y)exp(y⊤θ−b(θ))f(y\mid \theta) = h(y)\exp(y^\top \theta - b(\theta)) f(y∣θ)=h(y)exp(y⊤θ−b(θ))
定义域domb={θ∈Rn:b(θ)<+∞}\text{dom}b = \set{\theta \in \mathbb{R}^n: b(\theta) < +\infty}domb={θ∈Rn:b(θ)<+∞}是开集,于是对φ=b∗\varphi = b^*φ=b∗,有:
μ(θ):=E(y)=∇b(θ)−logf(y∣θ)=Dφ(y,μ(θ))+c(y)\mu(\theta) := \mathbb{E}(y) = \nabla b(\theta) \\ -\log f(y\mid \theta) = \mathbf{D}_\varphi(y, \mu(\theta)) + c(y) μ(θ):=E(y)=∇b(θ)−logf(y∣θ)=Dφ(y,μ(θ))+c(y)
其中c(y)c(y)c(y)不依赖于θ\thetaθ,这说明负对数似然可以分解为一个 Bregman 散度 加上一个仅依赖于yyy的项。
所以,负对数似然 ≈ Bregman 散度(从观测值到期望值的距离)
同时我们有∀g∈∂φ,Dφ(y,μ(θ))=△b(θ,g(y))\forall g \in \partial \varphi, D_\varphi (y, \mu(\theta)) = \triangle _b(\theta, g(y))∀g∈∂φ,Dφ(y,μ(θ))=△b(θ,g(y))。
如果b∈C(1)b\in \mathcal{C}^{(1)}b∈C(1)且是严格凸的,g=∇φ=(∇b)−1g = \nabla \varphi = (\nabla b)^{-1}g=∇φ=(∇b)−1且
Dφ(y,μ(θ))=Db(θ,g(y))\mathbf{D}_\varphi(y, \mu(\theta)) = \mathbf{D}_b(\theta, g(y)) Dφ(y,μ(θ))=Db(θ,g(y))
证明:
−<y,θ>+b(θ)=−<y,θ>+{<μ,θ>−φ(μ)}=−φ(μ)−<y−μ,θ>=−φ(μ)−<y−μ,∇φ(μ)>=Dφ(y,μ)−φ(y)\begin{align*} -\left<y, \theta\right> + b(\theta) &= -\left<y, \theta\right> + \set{\left<\mu, \theta\right> - \varphi(\mu)} \\ &= -\varphi(\mu) - \left<y-\mu, \theta\right> \\ &= -\varphi(\mu) - \left<y-\mu, \nabla \varphi(\mu)\right> \\ &= \mathbf{D}_\varphi(y, \mu) - \varphi(y) \end{align*} −⟨y,θ⟩+b(θ)=−⟨y,θ⟩+{⟨μ,θ⟩−φ(μ)}=−φ(μ)−⟨y−μ,θ⟩=−φ(μ)−⟨y−μ,∇φ(μ)⟩=Dφ(y,μ)−φ(y)
熵(Entropy)
对于概率向量y∈Pny \in \mathcal{P}^ny∈Pn(即所有分量非负且和为1的向量),其对应的随机变量的熵定义为:
H(y):=−∑yilogyiH(y) := -\sum y_i\log y_i H(y):=−∑yilogyi
通常我们会选用负熵−H(y)-H(y)−H(y)来做优化。
连续情况下:H(p)=−∫p(x)logp(x)dxH(p) = -\int p(x) \log p(x) dxH(p)=−∫p(x)logp(x)dx
KL散度(Kullback-Leibler Divergence)
定义两个离散概率分布ppp和qqq之间的KL散度为:
K(p∥q)=∑pilogpiqiK(p \| q) = \sum p_i \log \frac{p_i}{q_i} K(p∥q)=∑pilogqipi
这也被称为相对熵(relative entropy)
- 有限性条件:当qi=0q_i=0qi=0,必须有pi=0p_i=0pi=0,否则KL散度为无穷大,同时约定0log0=00\log 0 = 00log0=0
- 非归一化形式:
K(p∥q)=∑{pilogpiqi−pi+qi}K(p \| q) = \sum \set{p_i\log \frac{p_i}{q_i} - p_i + q_i} K(p∥q)=∑{pilogqipi−pi+qi}
这是函数∑tilogti\sum t_i\log t_i∑tilogti的Bregman散度。
等价表示:
K(p∥q)=−∑pilogqi+∑pilogpi=H(p,q)−H(p)K(p\| q) = -\sum p_i \log q_i + \sum p_i\log p_i = H(p, q) - H(p)K(p∥q)=−∑pilogqi+∑pilogpi=H(p,q)−H(p)
其中:
- H(p,q)=−∑pilogqiH(p ,q) = -\sum p_i \log q_iH(p,q)=−∑pilogqi被称为交叉熵(cross-entropy)
- H(p)H(p)H(p)是ppp的熵
连续情况下:K(p∥q)=∫p(x)log(p(x)q(x))dxK(p\|q) = \int p(x) \log \left(\frac{p(x)}{q(x)}\right)dxK(p∥q)=∫p(x)log(q(x)p(x))dx
