当前位置：首页 > news >正文

Transformer 中的并行和串行

news 2025/9/28 18:55:52

1. Transformer 的“并行性”到底指什么？

Transformer 相比 RNN/LSTM 的最大优点是：

Encoder 阶段：所有位置的 self-attention 可以 同时计算（并行）。
Decoder 训练阶段：即使有 mask，所有位置的 self-attention 也能 一次性并行计算。

👉 并行性主要体现在 训练时。

2. 那为什么生成时是串行的？

在 推理/生成阶段（inference），自回归的 Decoder 要逐个词生成：

第一步预测第 1 个词
第二步要等到第 1 个词出来了，才能拼接输入再预测第 2 个词
…

所以推理时是 串行的。

⚠️ 这是自回归生成的本质限制 —— 你必须知道前面生成的内容，才能预测下一个。

3. 为什么训练时可以并行？

训练和推理的机制不一样：

训练时（Teacher Forcing）：
- 目标句子（比如 “I love you”）是已知的。
- 所以在 Decoder 里，我们可以把 <BOS>, I, love, you 全部喂进去，
- Masked Self-Attention 保证第 ttt 个位置只用到 ≤t\leq t≤t 的词。
- 这样，所有位置的预测（I, love, you, <EOS>）都能 一次并行算出来。
推理时：
- 未来的词不可知，只能等模型一步步生成。
- 所以必须串行。

4. 类比帮助理解

训练就像学生在做“带答案的模拟卷”——所有句子都给了，所以可以一口气学会所有位置该输出什么。
推理就像学生在考场上“现场写作文”——答案没给，只能一边写一边想。

5. 总结

Transformer 的 并行优势：主要体现在 训练阶段，大幅快于 RNN。
Transformer 的 自回归限制：在 推理阶段，仍然是串行生成。
所以实际应用中（比如 GPT 生成文本）会比较慢，需要一些技巧（比如缓存 KV、并行解码、采样优化）来加速。

http://www.dtcms.com/a/416895.html

相关文章：

手机网站建设最新报价成都网站开发建设推广

网站空间到期影响已有网站做移动网站

网站建设选信达互联wordpress 后台密码错误

做网站一般像素wordpress旧编辑器

怎样建设企业网站平安银行官方网站

建设网站的运行费包括什么地方免费在线咨询软件

做服装找工作网站电子商务网站设计成功的要素

北京网站优化公司如何wordpress 雅黑字体

做网站的接私活犯法吗合肥企业快速建站

怎么在wordpress建英文网站如何查看网站的访问量

网站设计与开发范本东莞市建设网站

聊聊Bert模型输出的pooler_output与last_hidden_state

颍上县住房和城乡建设局网站提供网站建设服务平台

交互做的很好的网站无锡seo报价

有没有专门帮人做图的网站个人养老金保险查询

VCU开发——热平衡测试流程

哪个网站注册域名好一级a做爰网站下载

与设计行业相关的网站扁平化蓝色网站模板

做爰网站下载抖音seo关键词优化

做网站做软件怎么赚钱简述搜索引擎的工作原理

怎么建设官方网站网站标题seo

一个网站怎么做软件好用吗视频网站调用

资讯网站开发可信网站收费吗

长安网站设计合肥网站建设百家号

佛山专业做网站的昆明做网站哪家便宜

网站开发有很多种吗已有网站怎么修改

资金盘网站开发多少钱建设网站步骤是

wordpress新闻站自动采集器手机pc网站模板

局域网网站建设多少钱海城网站建设

小企业网站建设在哪里找做一个网站系统多少钱