当前位置: 首页 > wzjs >正文

在线营销型网站制作公司网站上传文章

在线营销型网站制作,公司网站上传文章,互联网广告营销,网站建设的含盖哪方面1.预训练 相似的任务A、B,任务A已经用大数据完成了训练,得到模型A。 我们利用-特征提取模型的-“浅层参数通用”的特性,使用模型A的浅层参数,其他参数再通过任务B去训练(微调)。 2.统计语言模型 通过条件…

1.预训练

相似的任务A、B,任务A已经用大数据完成了训练,得到模型A。

我们利用-特征提取模型的-“浅层参数通用”的特性,使用模型A的浅层参数,其他参数再通过任务B去训练(微调)。

2.统计语言模型

通过条件概率,解决“完型填空”问题和“预测句子出现概率”问题。

3.神经网络语言模型 -- 为了预测next

就是通过mlp,利用已有的词库将单词编码为onehot * Q矩阵(可学习),拟合一个预测下一个单词的模型。最后输出的softmax维度是词库的维度大小。

softmax(w2(tanh((w1x+b1)))+b2)

x是输入的词编码

缺点:onehot的维度==词库的大小,容易出现维度爆炸。我们希望去训练一个Q去控制词embedding大小。

得出:onehot * Q = V,V向量就能表示一个单词的词向量。且能调整大小、能计算词的余弦相似度。

但是:一个Q矩阵,所有的词都在用?

4.Word2Vec类模型 -- 为了得到词vec

· CBOW

给出一个词的上下文,预测这个词。--完形填空

· Skip-gram

给出词预测上下文。--没啥用

w2v是一种预训练模型,因为这个模型可以预训练好一个Q矩阵,供别的下游任务直接使用,无需重新训练。

而onehot不是预训练,是一一对应的表查询。

但是:词向量不能进行多义词表示。

5.ELMo--解决上述问题

注意双向双层

输入:很普通的w2v词向量E;

输出:融合上下文信息的新词向量T。对于一个同一词,T的编码也会不一样了,而且相关性应该是负的。

但是:lstm不能并行,长期依赖。

6.attention

理解:“Query,Key,Value的概念取自于信息检索系统,举个简单的搜索的例子来说。当你在某电商平台搜索某件商品(年轻女士冬季穿的红色薄款羽绒服)时,你在搜索引擎上输入的内容便是Query。 然后搜索引擎根据Query为你匹配Key(例如商品的种类,颜色,描述等)。 然后根据Query和Key的相似度得到匹配的内容(Value)。”

理解:Q,K,V是三个矩阵。 是 X 输入与 Wq,Wk,Wv 点积的结果。 最开始Wq,Wk,Wv 是随机生成的, 后面通过训练 Wq,Wk,Wv 会不断调整,通过loss 函数进行。 Wq,Wk,Wv 就是需要训练的参数。

理解:每个token都会发出一个Q去询问其他token,点乘他们的K,得到相对的重要性,为了消除较大的K对softmax的影响除以根号dk,再做softmax得到概率后,点乘V,得到具体需要注意多少

  !!从分布的角度解释。

7.self-attention

经典

8.67的区别

· 注意力机制没有规定QKV的来源

· 自注意力规定QKV必须是源于X,只是乘了不同的矩阵,在空间上做了不同的伸缩旋转。

9.self和rnn lstm的比较

rnn:

,x0的信息传的远了就消失了。

lstm:

,通过门,选择性记忆/增强前文的信息。

二者都不能并行,存在长序列依赖问题。

10.mask attention

生成模型是一个单词一个单词的生成,所以对已生成的单词想要做attention的话,attention map会像是下阶梯形矩阵。

11.多头自注意

就是将X分成8块,每个头有自己的QKV,同样得到一个Z,拼接后再经过一个线性变换得到原来大小的Z。

12.位置编码

· 由于attention可以并行计算,导致它不能像rnn一样完全顺序进行计算。

· 而且如果没有位置编码,即使话的顺序是乱的,也不影响attention的计算。所以应该有位置编码来表示语序。加到原来的词向量中。

计算方式:

 对于每个pos的编码,偶数位置用sin奇数位置用cos。2i的目的仅是为了转换为对应的三角函数。

再根据三角函数和差化积:

得到:PE = sin(将posi分为两数之和) = 这两个数的PE的线性组合。

理解为:较大posi的编码中蕴含了较小posi的PE信息。即,相当于递归的意思,后面的pos必须依赖之前的值。

13.transformer框架

seq2seq模型

encode:将输入变成词向量

decode:输入词向量,生成下步预测

· Encoder层

N层encoder,代表输入经过了N个encoder逐步增强词向量表示。

每层中,初始化X的embedding--position encode--self att--Z score--laynorm(X+Z)--Z1--FFN做非线性变换--laynorm(Z1+Z2)

· Decoder层

将encode的输出作为KV,那decode层的输入是啥?

训练阶段的输入是生成的target目标值,然后用它经过mask self att求Q,再和之前的KV做交叉att。

预测阶段的输入是之前生成过的所有值,根据这些内容去预测下一个可能的词。

14.为什么decoder做mask?

为了解决训练阶段和测试阶段的输入不匹配。即:训练阶段decoder输入了完整的target序列, 而测试阶段只有已生成的序列。所以,使用了mask后,可以让训练阶段也看不到序列后文。

15.为什么decoder产生Q,encoder产生KV?

一句话来讲:输出的内容是要参考你输入序列的上下文。

16.关于最初始化的词向量,无所谓是onehot还是别的,最后都会得到更新。但是越高效的初始化能对应更少的更新次数。模型会把一个词向量对应到一个空间位置。 

http://www.dtcms.com/wzjs/824123.html

相关文章:

  • 网站建设的费用怎么做账wordpress 文章分类id
  • 做外贸的网站都有哪些廊坊seo优化排名
  • 京东网站建设目标北京建网站报价
  • 平度网站整站优化外包公司wifi管理系统登录入口
  • 南宁较好的网站建设公司做多国语言网站
  • 课程网站建设发展趋势莱芜高端网站建设价格
  • 张家口城乡建设局网站陶瓷网站开发背景
  • 购物商城网站建设紧急网页升级紧急通知
  • 兰州网站建设小程序wordpress 绑定二级域名
  • 图片网站优化可商用的免费素材网站
  • 做茶叶网站的目的和规划网页设计培训周志
  • wordpress 主题设置中文长沙有实力的关键词优化价格
  • 韶关做网站的国外在线设计平台
  • wap手机网站尺寸网页界面设计赏析
  • 做网站简单还是做app简单南宁网站建设哪家公司实力
  • 泉州专业建站公司简单网站系统
  • 用帝国软件做网站的心得百度下载官方下载安装
  • 服装网站的建设背景成都微网站设计
  • 建筑公司网站案例宣传画册
  • 网站开发的成品vi设计理念和设计思路
  • 新手网站建设教程图书建设个人网站需要备案吗
  • 开发东莞网站制作公司协会网站建设需要注意什么
  • 厦门市建设路网站宜昌网站模板
  • 网站建设合同英文模板下载wordpress 数字不连续
  • 华丽的网站模板可信赖的菏泽网站建设
  • 大型网站开发框架有哪些做信贷抢客户网站
  • 哈尔滨企业自助建站廊坊网站建设制作电话
  • 商城网站页面模板郑州网站建设知名公司
  • 免费建站哪个好淄博烧烤的网络营销方式
  • 网站开发团队人员淘宝网页版怎么注销账号