当前位置: 首页 > news >正文

交叉熵损失函数和负对数似然损失函数 KL散度

交叉熵损失函数和负对数似然损失函数

在这里插入图片描述
负对数似然损失函数
在这里插入图片描述
交叉熵损失函数
在分类问题,llm训练预测下一个token的任务上,只有正确位置为1,N=1,所以最终体现的数学形式一致。因此二者相等
在这里插入图片描述

区别

他们的区别就是出发点和来源不同,交叉熵损失函数来自概率论的知识
信息量-》信息熵-》交叉熵

  • 信息量:概率越低的事件发生时所含的信息量越大
  • 信息熵:衡量某个事件发生的期望值,也是最优编码的编码长度 (每个字符的出现概率相等)在这里插入图片描述
  • 交叉熵:非最优的编码长度,就叫交叉熵,在p的分布下,使用q来编码的期望编码长度,也代表了用q来代表p分布所要付出的代价
    在这里插入图片描述
    负对数似然损失函数
    负对数似然损失函数的目标是找到到达目标的最佳参数是什么,举个例子,一个不规则的硬币,你不知道他正面与负面的概率是多少,那你就要通过数据来推这个参数(概率),下图是负对数似然损失函数的的图像,可以可以得到在0.7左右的损失是最小的,因此可以得到为正个概率是0.7
    在这里插入图片描述

KL散度

KL散度就是交叉熵-信息熵,代表了用q来表示p的时候损失的信息量,衡量的是差异
在这里插入图片描述

为什么不适用KL散度作为损失函数

首先KL散度不符合距离的三原则

  • 1.非负性与同一性
    d(x,y) ≥ 0,且 d(x,y)=0 ⇔ x=y
    (距离不能是负数,且只有到自己才为零)
  • 2.对称性
    d(x,y) = d(y,x)
    (A到B多远,B到A就多远)
  • 3.三角不等式
    d(x,z) ≤ d(x,y)+d(y,z)
    (绕路不会更近)
    KL散度不对称,用q来代表p和用p来代表q的差异是不相等的,KL散度是一种差异,而不是距离,差异会随着数据线性增大或减小,导致梯度爆炸或者消失,因而影响模型的训练效率

为什么softmax之后经常接交叉熵损失

首先交叉熵损失接收的输入是概率,利用softmax把模型输出转化为概率,其次softmax和交叉熵损失的组合,他们的导数形式非常简单,有利于模型的训练和加速
在这里插入图片描述
也就是预测标签分布与真实标签分布的差

KL散度在loss中的形式

在PPO中,KL散度是提前在奖励中的,先把KL散度减去,最终是作为label让模型学习的
在GRPO中,KL散度是在损失函数中作为正则化项来让模型不要偏离原模型太远
在DPO中,通过数学的方式约掉了KL散度,所以在π_new/π_old这里隐含了KL散度

KL散度不计算梯度,与上述的KL散度不作为损失函数的原因相同,所以不矛盾

http://www.dtcms.com/a/427120.html

相关文章:

  • 坪地网站建设教程网站seo优化方法
  • 网站数据库多大合适成都小型软件开发公司
  • Gibbs采样:全面解析马尔可夫链蒙特卡洛的核心算法
  • 【开题答辩全过程】以 python的音乐网站为例,包含答辩的问题和答案
  • 二项式定理——力扣2221.数组的三角和
  • 【数据结构】快速排序与归并排序的实现
  • LeetCode算法日记 - Day 57: 括号生成、组合
  • FinalShell 服务器远程连接工具
  • 分享:一键自动化巡检服务器
  • 广州建站快车加盟网网站建设策划书
  • 12306网站架构站长之家seo综合
  • 学习:uniapp全栈微信小程序vue3后台-额外/精彩报错篇
  • 【云服务器相关】云服务器与P2P
  • vscode终端输出中文乱码一种解决方法
  • 脑机接口(BCI):从信号到交互的工程实践
  • 更改mysql密码
  • 同步与互斥
  • Java Web搭建商城首页
  • STP生成树(h3c)
  • 深圳汇网网站建设移动互联网时代的到来为很多企业提供了新的商业机会
  • 安卓接入Bigo广告源
  • 安卓Handler+Messenger实现跨应用通讯
  • 公司网站建设完成通知重庆市工程建设交易中心网站
  • 北京网站设计公司hlh成都柚米科技15企业营销型网站系统
  • 德州网站建设招聘帝国网站怎么仿站
  • 15. C++ 类的转换
  • 基于STM32与influxDB的电力监控系统-7
  • python 之 argparse的简单使用
  • 开源 java android app 开发(十七)封库--混淆源码
  • windows显示驱动开发-IddCx 对象