【5】Transformers快速入门:Transformer 是啥?
一句话认识 Transformer
地位:当前所有AI聊天机器人的 “最强发动机”
(比如ChatGPT、文心一言、通义千问的核心技术)
1. Transformer 的诞生:干掉前辈的王者
- 2017年之前:
RNN(循环神经网络)和 CNN(卷积神经网络)是NLP主力,但像 “慢性子老员工”:- RNN:记性差(处理长文本吃力)
- CNN:看不懂上下文(像只认关键词的扫描仪)
- 2017年谷歌出手:
发表论文《Attention Is All You Need》,推出 Transformer!- 战绩:翻译任务秒杀当时最强的RNN模型 ✅
- 绝招:自注意力机制(Self-Attention) → 让模型像人一样 “抓重点”
(比如读“猫追老鼠”,自动聚焦“追”这个动作)
2. Transformer 三大家族
Transformer 不是一个模型,而是一个 架构模板,衍生出三大门派:
门派 | 代表模型 | 工作方式 | 擅长任务 | 小白比喻 |
---|---|---|---|---|
纯Encoder派 | BERT | 像“阅读理解学霸” | 文本分类、实体识别 | 只负责读题,不写答案 |
纯Decoder派 | GPT | 像“作文生成器” | 写文章、聊天、编故事 | 只负责写答案,不读题 😅 |
Encoder-Decoder派 | T5、BART | 像“翻译官” | 翻译、摘要(先读后写) | 先听懂中文,再输出英文 |
💡 关键区别:
- Encoder:理解输入(像耳朵👂)
- Decoder:生成输出(像嘴巴👄)
不同任务需要不同的“器官组合”!
3. Transformer 如何学习?—— 自监督预训练
核心思想:让AI “自学成才” ,不用人类标注数据!
两大自学方法:
- 填空学习法(Masked Language Model):
- 随机遮住句子中的词(如“我爱__北京”),让AI猜“吃” ✅
- 代表:BERT(像闭卷考试)
- 续写学习法(Causal Language Model):
- 给前半句(如“今天天气”),让AI续写“真好” ✅
- 代表:GPT(像开卷写作文)
4. 为什么需要迁移学习?
- 问题:从头训练Transformer像 “养恐龙” —— 烧钱又费电!
(训练一次GPT-3 ≈ 3000辆汽车开一年排放的碳🚗💨) - 解决方案:微调(Fine-tuning)
- 步骤:
- 用海量通用数据预训练大模型(烧钱但只用一次)
- 开发者下载现成模型,用 少量专业数据 微调
(例:用医学论文微调 → 变身“AI医生”)
- 好处:
- 省时省钱(微调只需1%的数据和算力)
- 效果更好(站在巨人肩膀上)
- 步骤:
5. 核心结构:Encoder & Decoder 拆解
Transformer = 理解部(Encoder) + 生成部(Decoder)
- Encoder 工作流程:
输入 → 分词 → 词向量 → 自注意力抓重点 → 输出语义编码- Decoder 工作流程:
语义编码 + 已生成内容 → 自注意力抓重点 → 输出下一个词
🌰 举个栗子(翻译任务):
输入:“How are you”
- Encoder:理解这是问候语(语义编码 = 😊)
- Decoder:根据 😊 生成“你好”
总结:Transformer 革命性在哪?
- 抛弃了慢吞吞的RNN → 并行计算提速百倍 ⚡
- 自注意力机制 → 让AI真正读懂上下文(不像CNN只会扫关键词)
- 预训练 + 微调 → 小公司也能用得起大模型 💰
💡 小白一句话记忆:
Transformer = 自学成才的速读作家(Encoder) + 才思敏捷的段子手(Decoder)
从此AI能说会道,全靠它!🚀