当前位置: 首页 > wzjs >正文

套餐型网站建设合同深圳全网信息流推广公司

套餐型网站建设合同,深圳全网信息流推广公司,手机网站建设开发,免费网站建设知识1.极大似然估计和交叉熵有什么关系 在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交…

1.极大似然估计和交叉熵有什么关系

在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。

交叉熵损失本质上就是对数似然的负数形式,使用交叉熵损失来进行优化时,我们可以简化很多数学表达和推导步骤。

2.正则化

正则化(Regularization)是机器学习和深度学习中的一种技术,用于防止模型过拟合(overfitting)。在训练模型时,如果模型太复杂,它可能会过度拟合训练数据中的噪声,而不仅仅是学习到数据的潜在规律。正则化通过在模型的损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力,使其在新的、未见过的数据上表现更好。

原理:在损失函数上加上某些规则(限制),缩小解空间,从而减少求出过拟合解的可能性

因此,其实在机器学习中,正则化往往是在损失函数上增加参数绝对值和(L1正则化)或增加参数平方和(L2正则化)。

将Loss拆分成两部分,一部分是正常计算的损失值,我们要寻找它的最小值,是个凹函数。另一部分是个正则化项,我们也要寻找它的最小值,它也是个凹函数。

假设待优化的模型参数w只有两个维度,可以看出来正则化项 z=|w1|+|w2| 或z=w1²+w2²等如下所示:

因为我们要寻找最终的最小值,两个凹函数的相加的最小值往往是二者相切的点。

总结

  • L1 正则化(Lasso)适用于特征选择和当你认为数据中有冗余或不重要的特征时,可以去除这些特征(即产生稀疏模型)。
  • L2 正则化(Ridge)适用于当你希望模型平滑、避免过拟合并且不需要对特征进行选择时。它更适合特征之间有相关性的情况,能够平衡每个特征的影响。

3.位置编码

3.1绝对位置编码

3.2旋转位置编码

4.LayerNorm和BatchNorm区别

RMSNorm(LLama)

http://www.dtcms.com/wzjs/328668.html

相关文章:

  • 深圳福田网站制作百度推广账号怎么注册
  • 佛山网站优化搜索成人馆店精准引流怎么推广
  • 甘肃省省经合局网站建设的通知软件开发工程师
  • 租腾讯服务器做网站行吗短视频seo代理
  • 只有网站才需要域名吗seo在中国
  • 淘宝内部优惠券网站怎么建设个人微信管理系统
  • 自己做的网站打不开网络营销中的seo与sem
  • 凡科能上传自己做的网站自己如何制作一个网站
  • 如何自建外贸b2c购物网站写软文赚钱的平台都有哪些
  • 南通网站建设十年以上公司百度管理员联系方式
  • 外贸中间体做哪个网站好seo广告投放是什么意思
  • 涵江网站建设快速优化网站排名软件
  • 网站前端和后台站长工具 忘忧草
  • 建设部网站在哪里报名考试如何制作个人网站
  • 网站的视频做gif广州品牌营销服务
  • 做网站那家好手机卡顿优化软件
  • 绍兴公司网站建设百度推广投诉热线
  • 江宁区住房建设局网站百度seo培训公司
  • Windows怎么建设网站广告推广方案
  • 中企做网站搜索引擎营销的简称
  • 做网站需要哪一些内容网络营销运营公司
  • 购买一个网站需要多少钱贵阳网站建设公司
  • element ui做的网站微信营销软件哪个好用
  • 正能量软件不良网站下载app开发成本预算表
  • 网页如何实现图片滚动徐州seo排名公司
  • 邯郸网站设计建设自媒体推广
  • 中国十大mro电商企业桔子seo
  • 广州天河区租房哪里便宜需要优化的地方
  • 小型网站运营天津百度爱采购
  • 网站和平台有什么区别网站竞价推广都有哪些