当前位置: 首页 > wzjs >正文

网站计费系统怎么做杭州网络推广公司

网站计费系统怎么做,杭州网络推广公司,微信做引流网站,中文wordpress网站模板交叉熵损失函数(Cross-Entropy Loss) 交叉熵损失函数,涉及两个概念,一个是损失函数,一个是交叉熵。 首先,对于损失函数。在机器学习中,损失函数就是用来衡量我们模型的预测结果与真实结果之间…

交叉熵损失函数(Cross-Entropy Loss)

交叉熵损失函数,涉及两个概念,一个是损失函数,一个是交叉熵。

首先,对于损失函数。在机器学习中,损失函数就是用来衡量我们模型的预测结果与真实结果之间“差距”的函数。这个差距越小,说明模型的表现越好;差距越大,说明模型表现越差。我们训练模型的目标,就是通过不断调整模型的参数,来最小化这个损失函数。以一个生活化的例子举例,想象一下你在教一个孩子识别猫和狗。孩子每次猜对或猜错,你都会给他一个“评分”。如果他猜对了,评分就很高(损失很小);如果他猜错了,评分就可能很低(损失很大)。

在明白完损失函数后,就要理解交叉熵了,在理解交叉熵之前我们又要了解何为。熵在信息论中是衡量一个随机变量不确定性(或者说信息量)的度量。不确定性越大,熵就越大。根据信息论中的香农定理,我们可以得出熵的计算公式为:

其中,P(xi)是事件xi发生的概率。- log(P(xi)) 表示信息量,根据公式我们可以知道信息量大小与概率成负相关,概率越小的时间其信息量越大,如飞机失事;概率越大的时间其信息量越小,如太阳从东边升起。

谈完熵之后,我们来开始理解何为交叉熵?

交叉熵是衡量两个概率分布之间“相似性”的度量。更准确地说,它衡量的是,当我们使用一个非真实的概率分布 Q 来表示一个真实的概率分布 P 时,所需要付出的“代价”或“信息量”。交叉熵的计算公式为:

注意,这里的 P(xi​) 通常是one-hot编码形式,即在分类问题中,只有真实类别对应的 P(xi​) 为1,其他为0。

二分类交叉熵

在二分类问题中,当你的模型需要判断一个输入是A类还是B类(比如是猫还是狗,是垃圾邮件还是正常邮件)时,你会使用二分类交叉熵

  • 真实标签 (y) 通常用0或1表示。例如,猫是1,狗是0。
  • 模型预测概率 (\widehat{y}) 模型输出的属于类别1的概率,通常通过Sigmoid激活函数得到,范围在0到1之间。

二分类交叉熵公式为:

直观理解:

  • 如果真实标签 y=1(比如是猫):损失函数变为 −log(\widehat{y}​)。此时,如果 \widehat{y}​ 接近1(模型预测是猫的概率很高),log(\widehat{y}) 就接近0,损失就小;如果 \widehat{y}​ 接近0(模型预测是猫的概率很低),log(\widehat{y}​) 就变成一个很大的负数,损失就大。
  • 如果真实标签 y=0(比如是狗):损失函数变为 −log(1−\widehat{y})。此时,如果 \widehat{y} 接近0(模型预测是狗的概率很高),1−\widehat{y}​ 接近1,log(1−\widehat{y}) 接近0,损失就小;如果 \widehat{y}​ 接近1(模型预测是狗的概率很低),1−\widehat{y} 接近0,log(1−\widehat{y}​) 变成一个很大的负数,损失就大。

多分类交叉熵

当你的模型需要判断一个输入是N个类别中的哪一个(比如是猫、狗、还是鸟)时,你会使用多分类交叉熵。

  • 真实标签 (y) 通常是one-hot编码。例如,猫是 [1,0,0],狗是 [0,1,0],鸟是 [0,0,1]。
  • 模型预测概率 (\widehat{y}) 模型输出的属于每个类别的概率分布,通常通过Softmax激活函数得到,所有概率之和为1。

多分类交叉熵的公式为:

其中,N 是类别的数量,yi​ 是真实标签中第 i 个类别的指示(0或1),\widehat{y}​i​ 是模型预测第 i 个类别的概率。

直观理解:

  • 由于真实标签 y 是one-hot编码,只有真实类别 k 对应的 yk​ 是1,其他 yi​ 都是0。所以,这个求和公式实际上只计算了真实类别对应的预测概率的负对数。
  • 举例:如果真实标签是猫 [1,0,0],模型预测是 [0.8(猫),0.1(狗),0.1(鸟)]。 损失 =−(1⋅log(0.8)+0⋅log(0.1)+0⋅log(0.1))=−log(0.8)。 如果模型预测是 [0.1(猫),0.8(狗),0.1(鸟)]。 损失 =−(1⋅log(0.1)+0⋅log(0.8)+0⋅log(0.1))=−log(0.1)。 显然,−log(0.1) 比 −log(0.8) 要大很多,说明模型预测猫的概率很低时,损失会很大,这符合我们的直觉。

KL散度(Kullback-Leibler Divergence)

KL散度和交叉熵很像,只不过交叉熵是硬标签,KL散度是软标签,因此KL散度也称为相对熵,是衡量两个概率分布 P 和 Q 之间差异的非对称度量。它量化了当使用概率分布 Q 来近似概率分布 P 时所损失的信息量。KL散度主要用于拉近真实分布和近似分布的表达,去让近似分布尽可能接近真实分布,因为越近似,其除法越近于1,log()越接近于0。其计算公式为:

其中,P为真实分布 ,Q为近似分布 。我们将其展开,可得到以下公式:

可以看到当P(xi)为1时,这时就变成交叉熵了。

KL散度特性

  • 非负性(涉及数学的非负性证明):KL​(P∣∣Q)≥0(因为P和Q不相等的话,即P/Q>1),只有当 P 和 Q 是完全相同的分布时(此时P/Q = 1),KL​(P∣∣Q)=0。
  • 非对称性:KL​(P∣∣Q) 不等于 KL​(Q∣∣P) 。KL​(P∣∣Q)是惩罚 Q 在 P 概率高的地方给出低概率。KL​(Q∣∣P)惩罚 Q 在 P 概率低的地方给出高概率。
  • 度量的是“信息损失” 它衡量的是当你用 Q 来编码 P 时,额外需要多少比特的信息。

交叉熵损失函数和KL散度总结

  • 交叉熵损失函数适用于分类任务,基于硬标签,目的是衡量模型预测的概率分布与真实标签的概率分布之间的“距离”。它的目标是让模型对真实类别的预测概率尽可能高。
  • KL散度适用于衡量两个概率分布之间的差异,是非对称的,多用于概率模型,用于强制模型学习到的分布与某个先验分布接近,或衡量两个复杂分布之间的相似性。

Focal loss 

http://www.dtcms.com/wzjs/51763.html

相关文章:

  • 企业网站 seo怎么做微信上如何投放广告
  • 公司网站设计解决方案彼亿营销
  • 台湾做的h游戏下载网站有哪些浏览器观看b站视频的最佳设置
  • 用jsp做的网站在不同浏览器显示效果差异很大如何解决网站关键词快速排名软件
  • html5网站后台怎么做佛山seo网站排名
  • 七牛视频wordpress长沙seo服务哪个公司好
  • wordpress 谷歌收录超级seo助手
  • 西宁思帽网站建设东莞网站seo优化
  • 高级网页设计师证朔州seo
  • 个人电脑建立网站会中文域名查询官网
  • 武汉做优化网站公司seo店铺描述
  • 天长做网站的谷歌google下载安卓版 app
  • 怎么做盗号网站手机爱站关键词搜索
  • 榆林网站制作百度推广网页版
  • 微信app下载安装官方版平板百度关键词seo优化
  • 网站建设用户画像例子百度站长之家工具
  • 做网站先买域名推广活动策划方案范文
  • 如何提高网站文章收录百度今日数据统计
  • 门户网站建设软件编写网站
  • 网站设计运行费用荆州seo推广
  • 贵港购物网站开发设计怎样在百度上发布免费广告
  • 石家庄企业商城网站建设刷关键词怎么刷
  • 网站建设费要摊销视频外链在线生成
  • 章丘做网站单位哪家好西安seo网站排名
  • 专门做asmr的网站北京seo优化分析
  • WordPress可以做政府网站吗公司网络营销推广
  • 网站建设全新闻摘抄四年级下册
  • 新城镇建设官方网站微信管理系统平台
  • wordpress首页分页函数十堰seo排名公司
  • 天猫商城的商品来源seo搜索引擎优化期末及答案