当前位置：首页 > wzjs >正文

门户网站建设的企业十大网站平台

wzjs 2025/8/21 19:07:07

门户网站建设的企业,十大网站平台,门户网站价格,网站服务器在香港弊端如是我闻： 以下是多头注意力（Multi-Headed Attention）在计算时常见的张量维度变换总结，帮助理解从输入到输出是如何一步步处理的。为了方便，令： B B B 表示 batch size（批量大小） S …

如是我闻： 以下是多头注意力（Multi-Headed Attention）在计算时常见的张量维度变换总结，帮助理解从输入到输出是如何一步步处理的。为了方便，令：

$B$ 表示 batch size（批量大小）
$S$ 表示 sequence length（序列长度）
$m$ 表示 num_heads（注意力头数）
$h$ 表示 head_size（每个头的维度）
$d_{\mathrm{model}} = m \times h$ 表示模型隐层维度

输入（queries、keys、values）
$\text{形状} = (B,\, S,\, d_{\mathrm{model}}).$
在「自注意力」（self-attention）场景下，三者通常是同一个张量；在「交叉注意力」（cross-attention）场景下， $\texttt{queries}$ 和 $\texttt{keys, values}$ 可能来自不同子网络。
线性映射（ $W_Q, W_K, W_V$ ）
- 对 $\texttt{queries}$ 做线性变换得到 (Q)：形状仍为 $d_{\mathrm{model}})$
- 对 $\texttt{keys}$ 做线性变换得到 $K$ ：形状同上
- 对 $\texttt{values}$ 做线性变换得到 $V$ ：形状同上
拆分 heads（split heads）
- 将 $d_{\mathrm{model}})$ reshape + transpose 成 $(B, m, S, h)$ 。
- 这样每个 batch、每个序列位置上就可以拆出 $m$ 个“头”，每个头维度为 $h$ 。
- 拆分后：
  $~\xrightarrow{\text{split}}~ (B,\, m,\, S,\, h).$
计算注意力分数（scores）
- 使用 scaled dot-product：
  $\text{scores} = \frac{Q \times K^T}{\sqrt{h}} \quad\text{形状} = (B,\, m,\, S,\, S).$
- 此时会应用「下三角 mask」（causal mask）以保证自回归：只关注「过去和当前」位置，屏蔽「未来」位置。
- 对 $\text{scores}$ 做 $\mathrm{softmax}$ 得到注意力权重 $\mathrm{attn\_weights}$ 。
加权求和（attended values）
$attended_values = a t t n _ w e i g h t s × V , 形状 = ( B , m , S , h ) . \text{attended\_values} = \mathrm{attn\_weights} \times V, \quad \text{形状} = (B,\, m,\, S,\, h).$
这样就得到每个 head 对原值向量的加权结果。
合并 heads（merge heads）
- 将 $(B, m, S, h)$ 还原到 $\times h)$ ，即 $d_{\mathrm{model}})$ 。
- 合并之后，相当于将所有 head 的信息拼接到最后一个维度上。
可选的最终线性映射 $\mathbf{W}_O$
- 多数实现会继续用一个线性层 $\mathbf{W}_O$ （同样是 $(d_{\mathrm{model}}, d_{\mathrm{model}})$ ）把拼接后的多头输出再次投影，形状保持 $d_{\mathrm{model}})$ 。