当前位置: 首页 > news >正文

网站维护和推广网站 锚点链接怎么做

网站维护和推广,网站 锚点链接怎么做,摄影展示网站源码,手机上怎么设计广告图片本文目录:一、先建立“分头-并行-拼接”直觉二、符号与形状(batch-first 写法,易读)三、公式(单头 → 多头)四、Python 裸写(无库,带 mask 可跑)五、例子:为什…

本文目录:

  • 一、先建立“分头-并行-拼接”直觉
  • 二、符号与形状(batch-first 写法,易读)
  • 三、公式(单头 → 多头)
  • 四、Python 裸写(无库,带 mask 可跑)
  • 五、例子:为什么“多头”比“一头”好?
  • 六、与 Efficient 变体关系
  • 七、总结

在这里插入图片描述
前言:今晚多分享一篇关于Transformer多头注意力的文。

一、先建立“分头-并行-拼接”直觉

        Input X  ──►  Linear(Q,K,V)  ──►  Split heads  ──►  Scaled Dot-Product each head│▼Output Z  ◄──  Concat heads  ◄──  Parallel softmax(QK^T/sqrt(d_k))V

一句话:把原来的 (Q,K,V) 拆成 h 个“小通道”并行算注意力,最后再拼回来。

二、符号与形状(batch-first 写法,易读)

张量形状含义
X(B, L, d_model)输入序列,L 个 token
W_Q(d_model, d_k·h)查询映射矩阵
W_K(d_model, d_k·h)键映射矩阵
W_V(d_model, d_v·h)值映射矩阵
Q/K/V(B, h, L, d_k)拆头后,每个头维度 d_k = d_model / h
O(B, h, L, d_v)单头注意力输出
W_O(d_v·h, d_model)输出投影,把拼接结果压回 d_model
Z(B, L, d_model)最终输出

三、公式(单头 → 多头)

1. 单头 Scaled Dot-Product
Attention(Q,K,V) = softmax( (QK^T) / √d_k ) V

2. 多头
head_i = Attention( XW_Q[:,i], XW_K[:,i], XW_V[:,i] )
MultiHead(X) = Concat(head_1,…,head_h) W_O

四、Python 裸写(无库,带 mask 可跑)

import torch, mathdef multi_head_attention(x, W_q, W_k, W_v, W_o, h, mask=None):B, L, d = x.shaped_k = d // h# 1. 线性投影 + 拆头q = (x @ W_q).view(B, L, h, d_k).transpose(1, 2)   # (B,h,L,d_k)k = (x @ W_k).view(B, L, h, d_k).transpose(1, 2)v = (x @ W_v).view(B, L, h, d_k).transpose(1, 2)# 2. 缩放点积scores = (q @ k.transpose(-2, -1)) / math.sqrt(d_k)  # (B,h,L,L)if mask is not None:          # 下三角 or padding maskscores = scores.masked_fill(mask==0, -1e9)attn = torch.softmax(scores, dim=-1)out = attn @ v                # (B,h,L,d_k)# 3. 拼接 + 输出投影out = out.transpose(1, 2).contiguous().view(B, L, d)return out @ W_o

五、例子:为什么“多头”比“一头”好?

任务:翻译 “The animal didn’t cross the street because it was too tired.”
要让 itanimal 而不是 street

  • 单头:只能抓一种相似度,可能把 itstreet 的“位置接近”当成高权重。
  • 多头
    head-1 专注“语法位置” → 发现 itanimal 主语对齐;
    head-2 专注“语义相似” → 发现 itanimal embeddings 更接近;
    拼接后投票,错误概率显著下降
    → 相当于ensemble of attention mechanisms,每个头学不同的子空间表示。

六、与 Efficient 变体关系

版本改动效果
Multi-Query Attention (MQA)所有头共享同一 K/V推理显存↓30–50%,速度↑
Grouped-Query Attention (GQA)分组共享 K/V平衡质量与速度,Llama-2/3 用
FlashAttention分块+重计算,O(N²)→O(N) 显存长序列神器,训练提速 2–4×

七、总结

Multi-Head Attention 就是把单头注意力复制 h 次,让每一路专注不同子空间,再 ensemble 结果
实现上只是** reshape + 并行矩阵乘 + concat**,却成为 Transformer 表达能力的核心来源。

本文分享到此结束。

http://www.dtcms.com/a/431841.html

相关文章:

  • 网站开发开票网站建设计划表
  • 郑州管城建设网站苏州头条新闻
  • 开发网站培训班威海市建设局网站
  • 前端-ElementPlus简介
  • 网站建设是啥安徽做手机网站
  • 南宁品牌网站建设公司杭州做商业地产开什么网站好
  • Flutter + Ollama:开启本地AI的全平台新纪元 —— 从零剖析一款现代化AI客户端的技术奥秘
  • c#网站开发框架有嵌入式开发难学吗
  • 26.简单的 CSS 粘土形态图标悬停效果
  • 十大免费自助建站网页ui素材中心下载
  • 【Python调用CANoe进行测试报告配置与统计】
  • 佛山做网站开发电脑app制作教程
  • 东莞网站建设和制作成都系统开发
  • sm2025 模拟赛5 (2025.9.13)
  • 网站建设 中关村产品设计是什么
  • C/C++ 关键关键字面试指南 (const, static, volatile, explicit)
  • 网络IO基础知识
  • 基于ollama运行27b gemma3解决ffmpeg命令生成问题
  • 银河麒麟Kylin-Server-V10
  • 昆明云南微网站搭建张家界网站建设dcwork
  • 正则表达式匹配 - 动态规划
  • Java 开发工具,最新2025 IDEA 使用
  • 动态规划 - 背包详解(下)
  • 北京小程序定制开发seo技能培训课程
  • 个人网站设计内容和要求企业做网站带来的好处
  • 关于校园图书馆网站建设公司设计图
  • 怎么样用自己电脑做网站企业注册信息查询单
  • 自己怎么做家政网站做百科需要发哪些网站
  • 网站开发需要哪些资料wordpress主题黑糖
  • 丽江市网站建设制作aspnet网站开发实例教程pdf