当前位置: 首页 > news >正文

重读生成概率模型1----基础概念

1 KL 散度

KL 散度的作为是描述两个分布的差异的,首先是度量一个分布,用熵来度量。

1.1 熵

在介绍熵之间,首先要度量单个事件的信息量
I(x)=−logP(x)I(x)=-logP(x)I(x)=logP(x)
整体的信息量
H(P)=Ex P[−logP(x)]=−∑P(x)logP(x) \begin{aligned} H(P) &=E_{x~P}[-logP(x)] \\ & = -\sum P(x)logP(x) \end{aligned} H(P)=Ex P[logP(x)]=P(x)logP(x)

1.2 KL 散度

原本数据真实的分布应该是p(x),但是现在搞错了,搞成q(x)
本来一个信息应该用-logP(x)描述,现在变成了-logq(x),
DKL(P∣∣Q)=Ex p[logP(x)Q(x)]=∑xP(x)logP(x)Q(x) \begin{aligned} D_{KL}(P||Q)=E_{x~p}[log\frac{P(x)}{Q(x)}]=\sum_xP(x)log\frac{P(x)}{Q(x)} \end{aligned} DKL(P∣∣Q)=Ex p[logQ(x)P(x)]=xP(x)logQ(x)P(x)

1.3 应用

  • softmax分类问题的KL散度
    对于每个样本来说,正确的类别
    P(xk)=1,Q(xk)=exkex1+ex2+...+exnDKL(P∣∣Q)=−logQ(xk)=−logexkex1+ex2+...+exn \begin{aligned} P(x_k)=1,Q(x_k)=\frac{e^{x_k}}{e^{x_1}+e^{x_2}+...+e^{x_n}} \\ D_{KL}(P||Q)=-logQ(x_k) =-log\frac{e^{x_k}}{e^{x_1}+e^{x_2}+...+e^{x_n}} \end{aligned} P(xk)=1,Q(xk)=ex1+ex2+...+exnexkDKL(P∣∣Q)=logQ(xk)=logex1+ex2+...+exnexk
  • 高斯分布问题的KL 散度
    P(x)=12πe−x22logP(x)=−12log(2π)−x22Q(x)=12πσe−(x−μ)22σ2logQ(x)=−12log(2π)−(x−μ)22σ2−log(σ)DKL(P∣∣Q)=Ep[logP(x)−logQ(x)]=Ep[logσ+(x−μ)22σ2−x22]DKL(P∣∣Q)=log(σ)+12σ2Ep[(x−μ)2]−12Ep(x2)DKL(P∣∣Q)=log(σ)+1+μ22σ2−12 \begin{aligned} P(x)=\frac{1}{\sqrt{2\pi}} e^{\frac{-x^2}{2}} \\ logP(x)=-\frac{1}{2}log(2\pi)-\frac{x^2}{2} \\ Q(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{\frac{-(x-\mu)^2}{2\sigma^2}} \\ logQ(x)=-\frac{1}{2}log(2\pi)-\frac{(x-\mu)^2}{2\sigma^2}-log(\sigma) \\ D_{KL}(P||Q)=E_p[logP(x)-logQ(x)]=E_p[log_{\sigma}+\frac{(x-\mu)^2}{2\sigma^2}-\frac{x^2}{2} ]\\ D_{KL}(P||Q)=log(\sigma)+\frac{1}{2\sigma^2}E_p[(x-\mu)^2]-\frac{1}{2}E_p(x^2) \\ D_{KL}(P||Q)=log(\sigma)+\frac{1+\mu^2}{2\sigma^2}-\frac{1}{2} \end{aligned} P(x)=2π1e2x2logP(x)=21log(2π)2x2Q(x)=2πσ1e2σ2(xμ)2logQ(x)=21log(2π)2σ2(xμ)2log(σ)DKL(P∣∣Q)=Ep[logP(x)logQ(x)]=Ep[logσ+2σ2(xμ)22x2]DKL(P∣∣Q)=log(σ)+2σ21Ep[(xμ)2]21Ep(x2)DKL(P∣∣Q)=log(σ)+2σ21+μ221

其中,直觉的理解是总平方距离=抖动平方+偏移的平方
Ep[(x−μ)2]=Ep[(x−E(x)+E(x)−μ)2]=Ep[(x−E(x)2)]+2Ep[x−E(x)][E(x)−μ]+Ep[(E(x)−μ)2]=var(x)+μ2 \begin{aligned} E_p[(x-\mu)^2] &=E_p[(x-E(x)+E(x)-\mu)^2] \\ & = E_p[(x-E(x)^2)]+2E_p[x-E(x)][E(x)-\mu]+E_p[(E(x)-\mu)^2] \\ & = var(x)+\mu^2 \end{aligned} Ep[(xμ)2]=Ep[(xE(x)+E(x)μ)2]=Ep[(xE(x)2)]+2Ep[xE(x)][E(x)μ]+Ep[(E(x)μ)2]=var(x)+μ2


文章转载自:

http://odx0yTDz.scwrc.cn
http://HAGktS6m.scwrc.cn
http://fpiJoydk.scwrc.cn
http://7nR2fb4W.scwrc.cn
http://BWsLr8QS.scwrc.cn
http://Fz4WYJRE.scwrc.cn
http://aclNrB29.scwrc.cn
http://J0bFQdJ2.scwrc.cn
http://z1CzrykD.scwrc.cn
http://HZU0gkf7.scwrc.cn
http://WwK7ZPfU.scwrc.cn
http://ZHY6dwDP.scwrc.cn
http://RaDAGR41.scwrc.cn
http://nToc8rGk.scwrc.cn
http://4iDDqEsH.scwrc.cn
http://k7UX3Akk.scwrc.cn
http://W2O2Ha3j.scwrc.cn
http://GatvMQy3.scwrc.cn
http://XrGSp5EJ.scwrc.cn
http://EcFOzXIF.scwrc.cn
http://ElF5gFJK.scwrc.cn
http://fDHVbNy9.scwrc.cn
http://9qRJCBJ9.scwrc.cn
http://LFJnian1.scwrc.cn
http://GUbyK9we.scwrc.cn
http://anJ6Q0yj.scwrc.cn
http://u6JVQwbM.scwrc.cn
http://wfENoNpQ.scwrc.cn
http://9ivYY7lo.scwrc.cn
http://3HJIj50h.scwrc.cn
http://www.dtcms.com/a/388460.html

相关文章:

  • File (文件)• Open (打开)•
  • DNS 服务原理与部署实战:从基础到主从架构搭建
  • 《黑夜君临》网络测试:XSX表现优于PS5及PS5 Pro
  • HDLBits-移位寄存器
  • C++宽度优先搜索算法(BFS算法):FloodFill问题模型
  • ThreadLocal 的工作原理
  • Windows 11 下载安装 CosyVoice2,一键启动
  • 《Vuejs设计与实现》第 16 章(解析器) 下
  • JavaSE——图书系统项目
  • PHP 中 Class 的使用说明
  • Android入门到实战(九):实现书架页——RecyclerView + GridLayoutManager + 本地数据库
  • 日常开发-20250917
  • 基于SpringBoot+Vue的近郊农场共享管理系统(Echarts图形化分析)
  • AI开发实战:从数据准备到模型部署的完整经验分享
  • 【漏洞预警】大华DSS数字监控系统 user_edit.action 接口敏感信息泄露漏洞分析
  • RFID赋能光伏电池片制造智能化跃迁
  • 大数据 + 分布式架构下 SQL 查询优化:从核心技术到调优体系
  • FPGA硬件设计-DDR
  • 卫星通信天线的跟踪精度,含义、测量和计算
  • 忘记MySQL root密码,如何急救并保障备份?
  • Java 异步编程实战:Thread、线程池、CompletableFuture、@Async 用法与场景
  • 贪心算法应用:硬币找零问题详解
  • while语句中的break和continue
  • 10cm钢板矫平机:一场“掰直”钢铁的微观战争
  • Python实现计算点云投影面积
  • C++底层刨析章节二:迭代器原理与实现:STL的万能胶水
  • 学习Python中Selenium模块的基本用法(14:页面打印)
  • 便携式管道推杆器:通信与电力基础设施升级中的“隐形推手”
  • leetcode 349 两个数组的交集
  • UV映射!加入纹理!