当前位置: 首页 > news >正文

凹凸性-信息论

Jensen’s inequality

image.png
注释:函数值的平权大于函数点的平均

Non-negativity of KL-Distance

image.png

Maximum Entropy Theorem最大熵定理

H(X)≤log(∣X∣)H(X) ≤ log(|X|)H(X)log(X)

用KL-distance 非负性推出

KL 散度总是非负:
DKL(P∥U)=∑xP(x)log⁡P(x)1/n≥0D_{KL}(P \| U) = \sum_x P(x) \log \frac{P(x)}{1/n} \geq 0DKL(PU)=xP(x)log1/nP(x)0

展开:

DKL(P∥U)=∑xP(x)log⁡P(x)+∑xP(x)log⁡nD_{KL}(P \| U) = \sum_x P(x) \log P(x) + \sum_x P(x)\log nDKL(PU)=xP(x)logP(x)+xP(x)logn

注意 ∑xP(x)=1\sum_x P(x)=1xP(x)=1,所以:

DKL(P∥U)=−H(X)+log⁡nD_{KL}(P \| U) = -H(X) + \log nDKL(PU)=H(X)+logn
因此:

−H(X)+log⁡n≥0⇒H(X)≤log⁡n.-H(X) + \log n \ge 0 \quad \Rightarrow \quad H(X) \le \log n.H(X)+logn0H(X)logn.

等号条件

当 P=U即 X 服从均匀分布时),KL 散度为零,上界取到:

H(X)=log⁡∣X∣H(X) = \log |\mathcal{X}|H(X)=logX

严格凹函数 ⇒ 极值唯一

我们已经知道

H(P)=−∑i=1npilog⁡piH(P) = -\sum_{i=1}^n p_i \log p_iH(P)=i=1npilogpi

严格凹函数(因为每个项 −pilog⁡pi-p_i \log p_ipilogpi 的二阶导数为 −1/pi<0-1/p_i < 01/pi<0)。

对一个严格凹函数 f,若在凸约束集上(如概率单纯形)存在驻点,则该驻点是唯一的全局最大值。

换句话说:

严格凹+线性约束⟹唯一的最大点。

这里的 |X|代表什么

H(X)≤log⁡∣X∣H(X) \le \log |X|H(X)logX

实际上这里的 ∣X∣ 是指 随机变量 X 能取的不同取值的数量,也就是它的样本空间的基数(cardinality)

KL散度和互信息的区别:

层级KL 散度互信息
样本空间一维 (X)(\mathcal{X})(X)二维 (X×Y)(\mathcal{X}\times\mathcal{Y})(X×Y)
比较对象真实分布 vs 模型分布真实联合分布 vs 假设独立分布
几何意义衡量“两个分布的距离”衡量“真实相关性偏离独立的程度”
信息含义模型误差变量间共享信息

Log sum inequality

image.png

f(平均)≤平均的ff(平均)≤平均的ff(平均)平均的f

Convexity of KL-distance

image.png

Convexity of Mutual Information(重点)

image.png

我们考虑一个随机变量对 (X, Y),它的联合分布由 边缘分布 p(x)(输入的分布)和 条件分布 p(y|x)(信道或传输规律)共同决定。

互信息 I(X; Y) 描述 X 与 Y 之间的信息量。 它对输入分布 p(x) 呈 凹函数(concave),对信道分布 p(y|x) 呈凸函数(convex)

I(X;Y)=H(Y)−H(Y∣X) I(X;Y)=H(Y)−H(Y∣X)I(X;Y)=H(Y)H(YX)

H(Y)=∑y​p(y)log⁡1p(y),H(Y)=\sum_{y}​p(y)\log\frac{1}{p(y)},H(Y)=yp(y)logp(y)1,p(y)=∑x​p(x)p(y∣x)p(y)=\sum_{x}​p(x)p(y∣x)p(y)=xp(x)p(yx)

H(Y∣X)=∑x​p(x)H(Y∣X=x))=∑xp(x)∑y​p(y∣x)log1p(y∣x)H(Y∣X)=\sum_{x}​p(x)H(Y|X=x))=\sum_{x}p(x)\sum_{y}​p(y∣x)log\frac{1}{p(y∣x)}H(YX)=xp(x)H(YX=x))=xp(x)yp(yx)logp(yx)1

总结凹凸性:

函数依赖变量凹/凸性质原因
H(p)H(p)H(p)p(x)p(x)p(x)(concave)混合增加不确定性混合增加不确定性混合增加不确定性
D(p‖q)D(p‖q)D(pq)(p,q)(p,q)(p,q)联合 凸(convex)KL散度的凸性定理KL散度的凸性定理KL散度的凸性定理
I(X;Y)=D(p(x,y)‖p(x)p(y))I(X;Y)=D(p(x,y)‖p(x)p(y))I(X;Y)=D(p(x,y)p(x)p(y))p(x)凹;p(y∣x)凸p(x)凹; p(y|x) 凸p(x)凹;p(yx)从KL的联合凸性与线性映射推导从KL的联合凸性与线性映射推导KL的联合凸性与线性映射推导

Markov chain

image.png

image.png

Data Processing Inequality

image.png

注意:

  • I(X;Y)I(X;Y)I(X;Y):两个圆重叠的部分。

  • I(X;Y,Z)I(X;Y,Z)I(X;Y,Z):X 的圆与 Y,Z 联合的圆的交叠面积(整个Y∪ZY\cup ZYZ 区域和XXX的交集)。

  • I(X;Y;Z)I(X;Y;Z)I(X;Y;Z):是三者交叠的中间那一块重叠部分(即三圆交集区域)。

I(X;Y,Z)=I(X;Z)+I(X;Y∣Z)=I(X;Y)+I(X;Z∣Y).I(X; Y , Z) = I(X; Z) + I(X; Y |Z) = I(X; Y ) + I(X; Z|Y ). I(X;Y,Z)=I(X;Z)+I(X;YZ)=I(X;Y)+I(X;ZY).

As I(X;Z∣Y)=0,then I(X;Y)≥I(X;Z).As \ I(X; Z|Y ) = 0, then \ I(X; Y ) ≥ I(X; Z).As I(X;ZY)=0,then I(X;Y)I(X;Z).

这种叫conditional independent :

未知 YYY的时候X,ZX,ZX,Z不独立

已知YYY的时候X,ZX,ZXZ独立

Sufficient Statistics

image.png

步骤含义
Given:XXX来自参数化分布 fθ(x)f_\theta(x)fθ(x),且定义了统计量T(X)T(X)T(X)
Assume / Check:给定 T(X)T(X)T(X)后,XXXθ\thetaθ条件独立。
Then:我们称 T(X) 是参数 θ\thetaθ 的充分统计量。

生成过程(自然的信息流方向)

在统计建模里,样本的生成顺序确实是:

θ⟶X⟶T(X)θ⟶X⟶T(X)θXT(X)
也就是说:

  • θ 是分布的参数,先确定它;

  • 然后根据 fθ(x)f_\theta(x)fθ(x) 从这个分布中采样出数据 XXX

  • 最后我们从样本中计算出一个统计量 T(X)T(X)T(X)

这就是生成模型的自然方向。


充分统计量定义时的条件独立方向

但是,当我们定义“充分统计量”时,我们要求:

X 与 θ 条件独立,给定 T(X)

也就是:

P(X∣θ,T(X))=P(X∣T(X))P(X|\theta, T(X)) = P(X|T(X))P(Xθ,T(X))=P(XT(X))

I(θ;X∣T(X))=0I(θ;X∣T(X))=0I(θ;XT(X))=0

这个条件反过来可以写成一条 Markov 链:

θ⟶T(X)⟶Xθ⟶T(X)⟶XθT(X)X

意思是:

一旦我们知道了 T(X)T(X)T(X),参数 θ 对 X 就不再有直接影响了(信息流被 T(X)T(X)T(X) 截断了)。

Shannon’s Source Coding Theorem

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Coding Theorem for DMS

image.png

特性定长编码变长编码
码字长度全部相同根据符号频率不同而变化
示例A=00, B=01, C=10, D=11A=0, B=10, C=110, D=111
优点编码/解码简单、易同步能根据概率分配更短码,节省平均码长
缺点不够压缩高效需要设计前缀码、防止歧义
应用固定块压缩、信道编码Huffman 编码、算术编码、自然语言压缩

在源编码定理里,n 是“块长”(block length),也就是我们一次拿多少个源符号一起去编码。
现实里,信息源 X 会持续输出很多符号:
X1,X2,X3,X4,…X_1, X_2, X_3, X_4, \dotsX1,X2,X3,X4,
比如:

  • X1X_1X1​ = 第一个字母

  • X2X_2X2​ = 第二个字母

  • X3X_3X3​ = 第三个字母

我们可以选择“每次编码 1 个符号”,也可以选择“每次编码 2 个、4 个、1000 个符号”, 这时的“每次编码的符号数量”就是 n

Rn​R_{n}​Rn就是这“一次性编码 n 个符号”方案的平均码率(average rate per source symbol)。 它表示:在这个块长为 n 的编码器下,每个源符号平均用了多少比特去描述。n 越大,Rₙ 越接近 H(X)

R 是你允许的“平均码率上限”;

typical set

image.png

性质

典型集的这些性质(信息量差不多、概率差不多、总概率≈1)只有当 n 很大时才成立。

image.png

编码

image.png

http://www.dtcms.com/a/471283.html

相关文章:

  • 人脸识别备案
  • 网站开发跟软件开发网站建设案例多少钱
  • 零信任平台接入芋道框架
  • 【HTML分离术】
  • brew使用国内镜像加速
  • 网站开发这个专业前景怎样wordpress 友好速搭
  • 搜狐快站绑定未备案的网站域名吗创业计划书建设网站
  • 企业决策缺数据支撑?档案管理系统智能分析BI助力清晰呈现
  • Alkyne-PEG-CHO在药物递送系统中的应用优势
  • git命令汇总(持续更新)
  • 不动产登记门户网站建设注册公司需要交多少税
  • windows server启动百度网盘安全验证空白的问题
  • 商务网站建设简答题及答案广告设计公司标语
  • 嘉峪关做网站建个人网站做导购
  • 网络编程
  • 做调研用到的大数据网站长沙制作网站软件
  • 网站设计培训学校找哪家成都网站搜索排名优化公司
  • Python中joblib库并行求解多个方程组
  • 购买空间后怎么上传网站越南外贸平台
  • c 网站建设教程视频建筑模拟器2022下载
  • C语言--核心语法
  • 网站建设兼职合同模板门户网站是什么
  • 基于SpringBoot的高校(学生综合)服务平台的设计与实现
  • 模板自助建站网站备案信息不准确
  • SAP MM 通用物料移动过账接口分享
  • 【ThinkPHP6系列学习-5】获取变量
  • AI技术路线之争
  • Android编译插桩ASM技术探究(一)
  • 西安网站建设软件模板下载失败
  • 学校的网站开发过程钓鱼软件生成器