当前位置: 首页 > news >正文

Transformer 中的并行和串行

1. Transformer 的“并行性”到底指什么?

Transformer 相比 RNN/LSTM 的最大优点是:

  • Encoder 阶段:所有位置的 self-attention 可以 同时计算(并行)。

  • Decoder 训练阶段:即使有 mask,所有位置的 self-attention 也能 一次性并行计算

👉 并行性主要体现在 训练时


2. 那为什么生成时是串行的?

推理/生成阶段(inference),自回归的 Decoder 要逐个词生成:

  • 第一步预测第 1 个词

  • 第二步要等到第 1 个词出来了,才能拼接输入再预测第 2 个词

所以推理时是 串行的

⚠️ 这是自回归生成的本质限制 —— 你必须知道前面生成的内容,才能预测下一个。


3. 为什么训练时可以并行?

训练和推理的机制不一样:

  • 训练时(Teacher Forcing):

    • 目标句子(比如 “I love you”)是已知的。

    • 所以在 Decoder 里,我们可以把 <BOS>, I, love, you 全部喂进去,

    • Masked Self-Attention 保证第 ttt 个位置只用到 ≤t\leq t≤t 的词。

    • 这样,所有位置的预测(I, love, you, <EOS>)都能 一次并行算出来

  • 推理时

    • 未来的词不可知,只能等模型一步步生成。

    • 所以必须串行。


4. 类比帮助理解

  • 训练就像学生在做“带答案的模拟卷”——所有句子都给了,所以可以一口气学会所有位置该输出什么。

  • 推理就像学生在考场上“现场写作文”——答案没给,只能一边写一边想。


5. 总结

  • Transformer 的 并行优势:主要体现在 训练阶段,大幅快于 RNN。

  • Transformer 的 自回归限制:在 推理阶段,仍然是串行生成。

  • 所以实际应用中(比如 GPT 生成文本)会比较慢,需要一些技巧(比如缓存 KV、并行解码、采样优化)来加速。

http://www.dtcms.com/a/416895.html

相关文章:

  • 手机网站建设最新报价成都网站开发建设推广
  • 网站空间到期影响已有网站做移动网站
  • 网站建设选信达互联wordpress 后台密码错误
  • 做网站一般像素wordpress旧编辑器
  • 怎样建设企业网站平安银行官方网站
  • 建设网站的运行费包括什么地方免费在线咨询软件
  • 做服装找工作网站电子商务网站设计成功的要素
  • 北京网站优化公司如何wordpress 雅黑字体
  • 做网站的接私活犯法吗合肥企业快速建站
  • 怎么在wordpress建英文网站如何查看网站的访问量
  • 网站设计与开发范本东莞市建设网站
  • 聊聊Bert模型输出的pooler_output与last_hidden_state
  • 颍上县住房和城乡建设局网站提供网站建设服务平台
  • 交互做的很好的网站无锡seo报价
  • 有没有专门帮人做图的网站个人养老金保险查询
  • VCU开发——热平衡测试流程
  • 哪个网站注册域名好一级a做爰网站下载
  • 与设计行业相关的网站扁平化蓝色网站模板
  • 做爰网站下载抖音seo关键词优化
  • 做网站做软件怎么赚钱简述搜索引擎的工作原理
  • 怎么建设官方网站网站标题seo
  • 一个网站怎么做软件好用吗视频网站调用
  • 资讯网站开发可信网站收费吗
  • 长安网站设计合肥网站建设百家号
  • 佛山专业做网站的昆明做网站哪家便宜
  • 网站开发有很多种吗已有网站怎么修改
  • 资金盘网站开发多少钱建设网站步骤是
  • wordpress新闻站自动采集器手机pc网站模板
  • 局域网网站建设多少钱海城 网站建设
  • 小企业网站建设在哪里找做一个网站系统多少钱