当前位置: 首页 > news >正文

信息量,惊奇度,熵、KL散度(相对熵),交叉熵、最大似然估计MLE与最小化交叉熵的等价证明、

一: 一些基本概念

1.1 信息量:特定事件所携带的信息多少

信息量衡量的是特定事件所携带的信息多少,其数学定义为:其中p(x)是事件x发生的概率。
在这里插入图片描述

核心思想:越罕见的事件,其携带的信息量越大;越常见的事件,其携带的信息量越小。

例如:

  • 如果某事件必然发生(p(x)=1),信息量为0,意味着观察到它不会带来任何新信息
    -如果某事件极其罕见(p(x)很小),信息量很大,观察到它提供了大量信息

1.2 惊奇度:观察到某事件时的"意外程度"

惊奇度表示观察到某事件时的"意外程度",其数学定义为:
₂

核心思想:越意外的事件惊奇度越高,越预期的事件惊奇度越低。

实际上,惊奇度和信息量是完全等价的数学表达式:

信息量强调的是事件所携带的信息内容
惊奇度强调的是事件发生的意外程度

1.3 熵 Entropy:度量随机变量的不确定性

信息论中的基本概念,用于度量随机变量(一个概率分布)的不确定性。

熵的概念可以从信息论角度推导:

  • 定义信息量: 对于概率为 p 的事件,其信息量为 I( p )=-log2 ( p)
  • 低概率事件携带更多信息(更"意外")
  • 高概率事件携带更少信息(更"预期")

1.3.1 定义:熵是平均信息量

熵是平均信息量:

对于离散随机变量X,其熵定义为:
在这里插入图片描述

对于一个特例,p(X=x₀)=1,即随机变量 X 确定性地取值为 x₀,我们可以如下推导:

所以,p(X=x₀)=1表示随机变量 X 是一个确定性变量,它总是取值为 x₀,没有任何不确定性。这种情况下:
– 随机变量没有任何随机性
– 系统处于完全确定的状态
– 我们可以100%确定 X 的值

熵为0正是反映了这种情况:当系统完全确定(无不确定性)时,熵达到最小值0,不需要任何额外信息就能预测其状态。

二元分布的熵与概率 p
  • 横轴是第一个事件发生的概率 p(第二个事件的概率就是 1-p)
  • 纵轴是对应的熵值
  • 这个图会呈现出一个倒U形曲线,
  • 在 p = 0.5 处达到最大值1比特。这是因为:
    当 p 接近 0 或 1 时,分布非常不平衡,一个事件几乎必然发生,另一个几乎不可能发生,这种情况下熵接近于0(表示低不确定性)
    当 p = 0.5 时,两个事件等可能发生,这是最不确定的情况,熵达到最大值1比特
三元分布belike:
  • 当分布均匀时(p1=p2=p3=1/3),熵达到最大值 log₂(3) ≈ 1.585 比特
  • 当一个概率接近1,其他接近0时,熵接近0
  • 当两个概率相等且较大,第三个较小时,熵介于log₂(2)和log₂(3)之间
  • 分布越不均匀,熵值越低,表示不确定性越小
    在这里插入图片描述
自由度解释:

三元分布有两个自由度时:
在一个有n个可能取值的概率分布中,因为所有概率之和必须等于1(∑p_i = 1),所以只有(n-1)个概率值可以自由选择。一旦确定了这(n-1)个值,最后一个值就被约束了。

例如:
二元分布:只有1个自由度。如果p₁ = 0.3,那么必然p₂ = 0.7
三元分布:有2个自由度。如果p₁ = 0.2,p₂ = 0.5,那么必然p₃ = 0.3

1.3.2 熵 Entropy和期望 Expectation

期望是随机变量的平均值或加权平均值,表示随机变量的"中心位置"。

对于离散随机变量 X,其期望定义为:
在这里插入图片描述
x 是随机变量 X 可能的取值、p(x) 是 X 取值为 x 的概率

对于连续随机变量 X,其期望定义为:
在这里插入图片描述
其中 f(x) 是 X 的概率密度函数。

推导过程

第一步:熵的标准定义
在这里插入图片描述
第二步:对数性质的应用
在这里插入图片描述
这一步是将负号移入对数内部,使用了对数的基本性质。

第三步:转换为期望形式
在这里插入图片描述
这一步表明熵是随机变量log(1/p(X))关于分布 p(x) 的期望。

熵是随机变量 X的"惊奇度"log2(1/p(X))的平均值。
1/p(x) 越大(即概率越小),惊奇度越高,贡献的信息量也越大。

熵是平均信息量 。换句话说,熵是对随机变量不确定性的平均度量,数学上就是信息量的期望(期望值)

1.4 相对熵(KL散度)

KL散度的定义:
对于未知概率分布p(x),我们用q(x)去逼近p(x),并定义相对熵或称KL散度。
在这里插入图片描述

1.5 交叉熵 Cross Entropy:度量两个概率分布之间的差异

交叉熵定义:用于度量两个概率分布之间的差异
在这里插入图片描述
所以可以得到
在这里插入图片描述

这个公式可以从编码理论角度理解:

  • H( p) - 使用最优编码方案(基于真实分布p)对来自分布p的数据进行编码所需的平均比特数
  • H(p,q) - 使用基于估计分布q的编码方案对来自真实分布p的数据进行编码所需的平均比特数
  • D(p||q) - 使用分布q的编码方案(而非最优编码方案p)所导致的额外编码成本

因此,这个公式表明:交叉熵 = 最优编码长度 + 使用错误分布造成的额外成本

二:从机器学习训练角度理解交叉熵与KL散度

2.1 模型训练目标:

有监督学习中:H( p) 是固定的,等价于最小化 D(p||q)

目标:最小化 p 和 q 之间的差异

在有监督学习中:
H( p)是固定的(取决于真实数据分布)
我们试图最小化H(p,q)(交叉熵损失)
等价于最小化D(p||q)(KL散度)

p(x) 是数据的真实分布(由标签定义)
q(x) 是模型预测的分布(模型输出)
我们的目标是最小化 p 和 q 之间的差异

2.2 为什么使用交叉熵作为损失函数

最小化交叉熵等价于最大化对数似然

当我们使用交叉熵 H(p,q) 作为损失函数时:
我们实际上是在最小化 D(p||q),因为 H( p) 是固定的
最小化交叉熵等价于最大化对数似然(log-likelihood)
交叉熵容易计算,且梯度性质好

梯度下降最小化交叉熵,D(p||q)→0时,q→p

当我们通过梯度下降最小化交叉熵时:
我们在寻找能够使模型分布q最接近真实分布p的参数
在训练过程中,D(p||q)逐渐减小
理想情况下,当D(p||q)→0时,q→p,模型完美拟合数据

  • 训练开始时:
    q分布与p分布差异大,D(p||q)值高, 交叉熵损失值大
  • 训练进行中:
    模型更新使q逐渐接近p, D(p||q)逐渐减小, 交叉熵损失逐渐降低

过拟合与正则化

如果模型过度专注于使训练数据的D(p||q)→0,可能会导致过拟合
正则化技术可以理解为对模型分布q施加额外约束,防止其过度拟合训练数据的p

2.3 具体例子

2.3.1 多分类问题

p 是one-hot编码的真实标签 [0,1,0,0,…]
q 是模型输出的softmax概率 [0.1,0.7,0.05,…]
交叉熵损失: H(p,q) = -∑p(x)log q(x)
因为p是one-hot编码,这简化为: -log q(正确类别)

2.3.2 在语言模型训练中

p是下一个token的真实分布
q是模型预测的下一个token的概率分布
最小化H(p,q)使模型预测分布尽可能接近真实分布

这种框架不仅解释了为什么交叉熵是首选损失函数,还帮助我们理解模型训练的本质:让模型分布逐渐接近数据真实分布的过程。
它帮助我们让模型分布q尽可能接近真实分布p,当q完全匹配p时,KL散度为0,交叉熵达到理论最小值H§ 。

2.4 最大似然估计 MLE

最大似然估计是统计学习的核心原理,
MLE的本质:找到一组参数使模型生成观测数据的概率最大

基本概念
我们从真实但未知的数据分布 p_data(x) 中采样得到数据集

每个样本 x_i 都是独立同分布(i.i.d.)的
目标是估计模型参数 θ,使得模型分布Pmodel (x; θ)最接近真实分布

2.4.1 推导过程解析:MLE与交叉熵

在这里插入图片描述这一步是对目标函数(也就是似然函数)取对数。这样做的原因是:

  • 对数是单调递增函数,所以最大化一个函数和最大化这个函数的对数是等价的,不会改变最大值对应的参数θ
  • 将乘积转换为求和,计算上更加方便,特别是当我们需要计算导数时
  • 避免数值计算中的下溢问题。直接计算很多小概率的乘积容易导致数值变得极小,超出计算机的表示范围

在这里插入图片描述

当我们将 p_model(x; θ) 记为 q(x),将 p_data(x) 记为 p(x) 时:
在这里插入图片描述
这最后一步正是最小化交叉熵

2.4.2 MLE的与交叉熵的等价性,

最小化交叉熵也等价于最小化KL散度
  • MLE的本质
    找到一组参数使模型生成观测数据的概率最大
  • 与交叉熵的等价性:
    最大化似然等价于最小化真实分布与模型分布之间的交叉熵
  • 与KL散度的关系:
    由于H(p,q) = H§ + D(p||q),而H§是常数,最小化交叉熵也等价于最小化KL散度
  • 实际应用:
    这就是为什么在神经网络等模型训练中,我们使用交叉熵作为损失函数 - 它直接对应于最大似然估计原则
http://www.dtcms.com/a/312437.html

相关文章:

  • 每日一博 - 异步编程最佳实践
  • ABAP SQL更新DB小技巧 WITH INDICATORS
  • Python-初学openCV——图像预处理(六)
  • 【GitHub探索】Prompt开发评测平台CozeLoop踩坑体验
  • 【gStreamer】Windows VS2022 C++ 项目中调用gstreamer相关函数,获取无线摄像头视频
  • LLM - 智能体工作流设计模式
  • C++ 设计模式综合实例
  • 设计原则和设计模式
  • 浅窥Claude-Prompting for Agents的Talk
  • Go语法:闭包
  • AD方案(OpenLDAP或微软AD)适配信创存在的不足以及可能优化方案
  • 风光储综合能源系统双层优化规划设计【MATLAB模型实现】
  • Android 之 WebView与HTML交互
  • ticdc同步集群部署
  • Java ++i 与 i++ 底层原理
  • 六、Linux核心服务与包管理
  • Unity_数据持久化_IXmlSerializable接口
  • java:判断两个实例(对象)相等
  • 多向量检索:lanchain,dashvector,milvus,vestorsearch,MUVERA
  • RabbitMQ面试精讲 Day 9:优先级队列与惰性队列
  • SQL154 插入记录(一)
  • 十八、Javaweb-day18-前端实战-登录
  • JavaScript 性能优化实战指南:从运行时到用户体验的全面提升​
  • 【openlayers框架学习】十:openlayers中控件的使用
  • 学习笔记《区块链技术与应用》第六天 问答 匿名技术 零知识证明
  • Apple基础(Xcode④-Flutter-Platform Channels)
  • Stream 过滤后修改元素,却意外修改原列表
  • Swift 运算符
  • 【Django】-9- 单元测试和集成测试(上)
  • Android 之 蓝牙通信(4.0 BLE)