当前位置: 首页 > wzjs >正文

企业网站建设有什么义县网站建设

企业网站建设有什么,义县网站建设,做农家乐网站,网站建设与运营 就业一、模型蒸馏技术 本质上是从一个大模型蒸馏出小模型,从小模型训练出来的概率分布(如自回归模型预测下一个字的概率分布)分别与大模型预测的概率分布和ground label求loss。与大模型预测的概率分布用KL散度求loss,与ground label用…

一、模型蒸馏技术

在这里插入图片描述
本质上是从一个大模型蒸馏出小模型,从小模型训练出来的概率分布(如自回归模型预测下一个字的概率分布)分别与大模型预测的概率分布和ground label求loss。与大模型预测的概率分布用KL散度求loss,与ground label用交叉熵求分布。
KL散度:
在这里插入图片描述

二、SFT(有监督微调)

给模型的输入通常是问答对的形式,答就是对模型输出的监督,所以是一个有监督模型。在预训练阶段通常是对无标注数据进行自监督训练,可以减少很多人工标注的成本。相比较自回归预测下一个字的模型,SFT的区别在于,输入是问答对的方式,且输入与输出间有sep分隔,输出结果仍然按照预测下一个字的概率分布的形式,但是我们需要的结果是从sep开始的,而且loss只从预测出的sep后的第一个字开始计算,直到预测到终止符结束(使用掩码注意力机制进行训练,这是它与预训练在训练方式上的差距)
在这里插入图片描述

三、LLM的一些模型结构变化

multi-head共享:
在这里插入图片描述
第一个就是我们常见的multi-head机制,然后演化成了第三种multi-query,这种机制在计算k,v的时候不用768×768的矩阵,而是768×64的矩阵,再把L×64的矩阵与多个queries矩阵相乘,再拼接在一起,这种方式的目的是减少参数,加速训练。最后演化成了现在常用的第二种grouped-query,这种机制在计算k,v的时候不用768×768的矩阵,而是768×256的矩阵,然后分成四块,再将queries分组,分别相乘。
attention结构:
在这里插入图片描述
左边是传统的transformer block,右边进行了一些改动,将self-attention和feedfarward层并行计算,而不是左边的串行计算。
归一化层位置的选择:
在这里插入图片描述
归一化的方式:
在这里插入图片描述

激活函数:
在这里插入图片描述
swish函数相当于sigmoid(x)×x,有门的机制,对x的内容进行有效提取。
RoPE:
由于transformer在进行运算时,基本上都是线性层,改变两个字的顺序只会改变矩阵中行的位置,没有明显的位置信息,所以提出了位置编码。同时为了能让预测序列比训练序列长的时候仍有好的表现,也就是有比较好的长度外推性,提出了相对位置编码(bert里的position embedding是绝对位置编码,限制了预测的输出的长度)
换一种思维,我们本质上是想保留语序信息,所以我们可以在attention机制的部分保留每个字两两之间的语序信息,也就是保留第m个字和第n个字(m-n)的信息。所以提出了RoPE。它是在q和k矩阵相乘之前分别作用在q,k矩阵上的。
在这里插入图片描述
MOE架构:
在这里插入图片描述
在过线性层时,设置多个线性层,在进入feedforward前先做一个分类任务,经过router选择,一部分选择过线性层A,一部分选择过线性层B,然后按概率加权求和。

四、LLAMA2结构

在这里插入图片描述
在每一个block里,用pre-LN的方式先进行RMSnorm,接着过attention的掩码注意力机制层,q,k首先分别进行相对位置编码(RoPE),然后再相乘归一化后与v相乘,接着过一层线性层,过一层残差链接来到前馈网络,首先依然是RMSnorm,接着过线性层和激活函数再过一层线性层和残差链接。


文章转载自:

http://A3AOSsNU.yfzLd.cn
http://90UTrFIJ.yfzLd.cn
http://pXiE6kLr.yfzLd.cn
http://Jh9K6Ee4.yfzLd.cn
http://VTSVQwqZ.yfzLd.cn
http://D4PL8gal.yfzLd.cn
http://TcnwYVIW.yfzLd.cn
http://wXeehatz.yfzLd.cn
http://T3bcfRqr.yfzLd.cn
http://orUvJyQ3.yfzLd.cn
http://UcBcQgGe.yfzLd.cn
http://aT8uPf3e.yfzLd.cn
http://8DDjEx2I.yfzLd.cn
http://AFRjhJBy.yfzLd.cn
http://9cpCROtn.yfzLd.cn
http://vVqSrOsz.yfzLd.cn
http://sWWn5uGw.yfzLd.cn
http://Jw7btyAu.yfzLd.cn
http://e8rEKuHA.yfzLd.cn
http://28XMN4b4.yfzLd.cn
http://A3MA2S1Z.yfzLd.cn
http://9iJPzbDj.yfzLd.cn
http://UxDLyzik.yfzLd.cn
http://6MFL4STi.yfzLd.cn
http://qBgE4e3J.yfzLd.cn
http://vVmo5FQB.yfzLd.cn
http://Z4krE7eb.yfzLd.cn
http://vhTNq4rl.yfzLd.cn
http://iWb8MK1y.yfzLd.cn
http://yRazJxGe.yfzLd.cn
http://www.dtcms.com/wzjs/777308.html

相关文章:

  • 网站建设不完整 审核线上企业订单管理系统网站
  • wordpress 换域名 全站301重定向做seo_教你如何选择网站关键词
  • 计算机网络技术网站开发wordpress网站关键字
  • 百姓网网站建设网站开发用php还是js
  • 如何建学校网站wordpress动态插件
  • 广州建设厅电工网站江门建站网站模板
  • 树苗网站源码什邡建设局网站
  • 美文的手机网站淘宝客网站一定要备案
  • 域名注册网站 简称十堰公司做网站
  • 博客做公司网站北京建站公司兴田德润信任
  • 网站开发学哪一个好公关公司多少钱一个月
  • 有视频接口怎么做网站课题组网站建设
  • 济宁网站建设只要500元wordpress瀑布墙
  • 东莞网站建设咨询外贸做企业什么网站
  • 小说网站建设需要什么js跳转到别的网站
  • 婚纱定制网站哪个好韶关网站开发
  • 昆明网站制作企业海淘手表网站
  • 深圳wap网站建设7天精通网站建设实录简介242
  • 中国建设银行个人网站银行广州专业网页制作
  • 建设银行 北京招聘网站开购物网站需要多少钱
  • 客户网站建设需要什么资料网站开发app开发培训
  • 房地产项目网站建设方案淄博公司制作网站有哪些
  • 男学网站开发胡芦娃app软件下载网站
  • 建设银行网银官方网站公司网站的具体步骤
  • 做视频网站 带宽计算网站建设优化需要懂那些知识
  • 一流的网站建设与优化京东云wordpress
  • 网站开发技术历史大连甘井子区地图
  • 网站怎么做缓存上海市城乡住房建设厅网站
  • 瑞华特散热器网站谁给做的推动高质量发展的必要性
  • 关于建设网站的合作合同重庆seo研究中心