当前位置：首页 > wzjs >正文

在线营销型网站制作公司网站上传文章

wzjs 2025/9/22 3:31:22

在线营销型网站制作,公司网站上传文章,互联网广告营销,网站建设的含盖哪方面1.预训练相似的任务A、B，任务A已经用大数据完成了训练，得到模型A。我们利用-特征提取模型的-“浅层参数通用”的特性，使用模型A的浅层参数，其他参数再通过任务B去训练（微调）。 2.统计语言模型通过条件…

1.预训练

相似的任务A、B，任务A已经用大数据完成了训练，得到模型A。

我们利用-特征提取模型的-“浅层参数通用”的特性，使用模型A的浅层参数，其他参数再通过任务B去训练（微调）。

2.统计语言模型

通过条件概率，解决“完型填空”问题和“预测句子出现概率”问题。

3.神经网络语言模型 -- 为了预测next

就是通过mlp，利用已有的词库将单词编码为onehot * Q矩阵（可学习），拟合一个预测下一个单词的模型。最后输出的softmax维度是词库的维度大小。

softmax(w2(tanh(（w1x+b1）))+b2)

x是输入的词编码

缺点：onehot的维度==词库的大小，容易出现维度爆炸。我们希望去训练一个Q去控制词embedding大小。

得出：onehot * Q = V，V向量就能表示一个单词的词向量。且能调整大小、能计算词的余弦相似度。

但是：一个Q矩阵，所有的词都在用？

4.Word2Vec类模型 -- 为了得到词vec

· CBOW

给出一个词的上下文，预测这个词。--完形填空

· Skip-gram

给出词预测上下文。--没啥用

w2v是一种预训练模型，因为这个模型可以预训练好一个Q矩阵，供别的下游任务直接使用，无需重新训练。

而onehot不是预训练，是一一对应的表查询。

但是：词向量不能进行多义词表示。

5.ELMo--解决上述问题

注意双向双层

输入：很普通的w2v词向量E；

输出：融合上下文信息的新词向量T。对于一个同一词，T的编码也会不一样了，而且相关性应该是负的。

但是：lstm不能并行，长期依赖。

6.attention

理解：“Query，Key，Value的概念取自于信息检索系统，举个简单的搜索的例子来说。当你在某电商平台搜索某件商品（年轻女士冬季穿的红色薄款羽绒服）时，你在搜索引擎上输入的内容便是Query。然后搜索引擎根据Query为你匹配Key（例如商品的种类，颜色，描述等）。然后根据Query和Key的相似度得到匹配的内容（Value)。”

理解：Q，K，V是三个矩阵。是 X 输入与 Wq，Wk，Wv 点积的结果。最开始Wq，Wk，Wv 是随机生成的，后面通过训练 Wq，Wk，Wv 会不断调整，通过loss 函数进行。 Wq，Wk，Wv 就是需要训练的参数。

理解：每个token都会发出一个Q去询问其他token，点乘他们的K，得到相对的重要性，为了消除较大的K对softmax的影响除以根号dk，再做softmax得到概率后，点乘V，得到具体需要注意多少

！！从分布的角度解释。