当前位置: 首页 > news >正文

网站推广有哪些方式出库入库管理软件app

网站推广有哪些方式,出库入库管理软件app,创建网站的app,友情链接实例自注意力机制(Self-Attention Mechanism)是现代深度学习模型,尤其是Transformer架构(如BERT、GPT系列等)的核心组件。它允许模型在处理序列数据(如文本、语音、时间序列)时,动态地关…

自注意力机制(Self-Attention Mechanism)是现代深度学习模型,尤其是Transformer架构(如BERT、GPT系列等)的核心组件。它允许模型在处理序列数据(如文本、语音、时间序列)时,动态地关注输入序列中不同位置的信息,从而计算出更有效的表示。

简单来说,自注意力机制让序列中的每一个元素​(例如句子中的一个单词)都能“看到”序列中的所有其他元素,并根据它们之间的相关性重要性,来决定在计算当前元素的表示时,应该赋予其他元素多少权重

自注意力机制的工作原理(简化版)

想象一个句子:“The animal didn't cross the street because it was too tired.”

我们想知道句子中“it”这个词指的是什么?是“animal”还是“street”?人类很容易理解“it”指的是“animal”,因为“tired”更可能描述动物而不是街道。自注意力机制就是让模型学习这种关联。

  1. 1.输入表示:​
    • 首先,输入序列(如句子)中的每个元素(如单词)被转换成向量表示(通常是词嵌入向量)。假设我们有输入向量序列:X = [x1, x2, ..., xn],其中xi代表第i个元素的向量。
  2. 2.生成Query, Key, Value:​
    • 对于序列中的每一个输入向量xi,我们使用三个不同的可学习权重矩阵(W_q, W_k, W_v)将其分别投影(线性变换)成三个新的向量:
      • Query向量(qi):​​ 代表当前元素(“我”)在“寻找”什么信息。
      • Key向量(ki):​​ 代表当前元素(“我”)能提供什么信息,或者“我”是什么。
      • Value向量(vi):​​ 代表当前元素(“我”)所包含的实际信息内容。
    • 所以,对于每个位置iqi = W_q * xi, ki = W_k * xi, vi = W_v * xi
  3. 3.​计算注意力分数:​
    • 为了计算位置i的输出,我们需要知道序列中所有位置​(包括i自己)相对于i的重要性。
    • 通过计算位置i的Query向量qi与序列中所有位置j(从1到n)的Key向量kj的点积(dot product)来实现:score(i, j) = qi · kj
    • 点积越大,表示qikj的相似度越高,意味着位置j的信息对于计算位置i的输出越重要。
    • 在我们的例子中,当计算“it”的表示时,它与“animal”的Key的点积应该很高(因为“it”指代“animal”),而与“street”的Key的点积应该较低。
  4. 4.​缩放与归一化(Softmax):​
    • 点积的结果可能会非常大(尤其在高维向量情况下),导致Softmax函数的梯度非常小。因此,通常会将点积除以一个缩放因子(通常是Key向量维度的平方根√dk):score(i, j) = (qi · kj) / √dk
    • 然后,对位置i的所有score(i, j)(j从1到n)应用Softmax函数,将其转换为一个概率分布(和为1):α(i, j) = softmax(score(i, j))
    • 这个α(i, j)就是位置j对位置i注意力权重。它表示在计算位置i的输出时,应该关注位置j的程度。
  5. 5.​计算加权和输出:​
    • 位置i的输出向量zi,是所有位置j的Value向量vj的加权和,权重就是上一步计算出的注意力权重α(i, j)zi = Σ α(i, j) * vj(对所有j求和)。
    • 这个输出向量zi,就是融合了序列中所有位置相关信息(根据它们与位置i的相关性加权)后,得到的新的、更丰富的表示。
    • 对于“it”,其输出向量z_it将是所有词向量的加权和,其中“animal”和“tired”的权重会非常高,而“street”的权重会很低,从而让模型知道“it”指的是“animal”。

自注意力机制的关键特点

  1. 1.​全局上下文感知:​​ 每个位置的输出都直接依赖于序列中所有其他位置的信息,能够捕捉长距离依赖关系(解决了RNN的长期依赖问题)。
  2. 2.​并行计算:​​ 序列中所有位置的Query、Key、Value向量可以同时计算,所有位置的输出也可以同时计算(矩阵运算),计算效率远高于RNN的顺序处理。
  3. 3.​动态权重:​​ 注意力权重α(i, j)不是固定的,而是根据输入序列动态计算的。模型能够根据当前输入的不同,灵活地关注不同的部分。
  4. 4.​置换不变性(位置编码解决):​​ 自注意力本身不考虑位置信息(词袋模型性质)。为了解决这个问题,Transformer引入了位置编码​(Positional Encoding),将位置信息显式地注入到输入向量中。

多头注意力(Multi-Head Attention)

为了增强模型的能力,Transformer使用了多头注意力机制:

  1. 1.将Query、Key、Value向量拆分h个头(例如,8个头)。
  2. 2.在每个头上独立地执行一次完整的自注意力计算(步骤2-5)。
  3. 3.将h个头计算出的输出向量拼接起来。
  4. 4.通过一个线性变换层将拼接后的向量映射回期望的输出维度。

好处:​

  • 允许模型在不同的表示子空间(由不同的权重矩阵W_q, W_k, W_v定义)中学习不同的关系。
  • 例如,一个头可能关注局部语法依赖(主谓一致),另一个头可能关注长距离指代关系(如“it”指代谁)。
  • 提高了模型的表示能力和学习能力。

总结

自注意力机制是一种强大的序列建模工具,它通过让序列中的每个元素动态地关注序列中所有其他元素,并根据相关性加权聚合它们的信息,从而生成包含丰富上下文信息的表示。它是Transformer架构成功的基石,并在自然语言处理、计算机视觉、语音识别等领域取得了革命性的进展。

http://www.dtcms.com/a/534641.html

相关文章:

  • 网站怎么弄实名制认证帝国cms做英文网站
  • 做网站要懂什么编程网站设计论文开题报告
  • 微小店网站建设平台湖北做网站
  • 网站开发技术要求百度seo教程网
  • 网站设计工程师培训做网站怎么给图片加连接
  • 网站seo方案模板dede 网站建设模板
  • wordpress淘宝客建站教程视频学校网站建设设计方案
  • 如何提高网站内容质量建设电子商务网站的试卷
  • 国内大一html网站简单设计做301网站打不开
  • 软件开发外包网站wordpress花园网站
  • 网站页面设计wordpress4.5漏洞
  • 网站建设 硬件梧州网站建设梧州
  • 英德市住房城乡建设局网站研磨材料 东莞网站建设
  • 最有效的网站推广公司wordpress环境部署
  • 灵当crm客户管理系统搜狗首页排名优化
  • 西宁网站制作 青自己做网站用php最快么
  • 泉州最专业微信网站建设开发东莞人才市场档案服务中心
  • 做农产品网站需要做的准备北京网络职业技术学院官网
  • 重庆建站模板搭建教学网站系统流程图
  • 南京外贸网站建设公司学人工智能后悔死了
  • 自己的网站怎么做跳转花店网站模板免费下载
  • php网站平台可商用的免费素材网站
  • 南京建设教育网站南阳网站设计
  • 网站开发与管理课程设计心得网站建设先进个人材料
  • 如何做网站实名认证wordpress 添加插件
  • 宗亲网站开发网站开发php和c语言区别
  • 宜昌皓月建设工程有限公司网站百度地图收录提交入口
  • 网站制作好后 怎样上线西部数码网站管理助手3.1
  • 做暧暧免费网站哪里有免费的网站模板下载 迅雷下载 迅雷下载软件
  • 北大青鸟的网站建设课程多少钱wordpress pixvideo