当前位置：首页 > news >正文

【5】Transformers快速入门：Transformer 是啥？

news 2025/8/13 12:47:09

一句话认识 Transformer

地位：当前所有AI聊天机器人的 “最强发动机”
（比如ChatGPT、文心一言、通义千问的核心技术）

1. Transformer 的诞生：干掉前辈的王者

2017年之前：
RNN（循环神经网络）和 CNN（卷积神经网络）是NLP主力，但像 “慢性子老员工”：
- RNN：记性差（处理长文本吃力）
- CNN：看不懂上下文（像只认关键词的扫描仪）
2017年谷歌出手：
发表论文《Attention Is All You Need》，推出 Transformer！
- 战绩：翻译任务秒杀当时最强的RNN模型 ✅
- 绝招：自注意力机制（Self-Attention） → 让模型像人一样 “抓重点”
  （比如读“猫追老鼠”，自动聚焦“追”这个动作）

2. Transformer 三大家族

Transformer 不是一个模型，而是一个 架构模板，衍生出三大门派：

门派	代表模型	工作方式	擅长任务	小白比喻
纯Encoder派	BERT	像“阅读理解学霸”	文本分类、实体识别	只负责读题，不写答案
纯Decoder派	GPT	像“作文生成器”	写文章、聊天、编故事	只负责写答案，不读题 😅
Encoder-Decoder派	T5、BART	像“翻译官”	翻译、摘要（先读后写）	先听懂中文，再输出英文

💡 关键区别：

Encoder：理解输入（像耳朵👂）
Decoder：生成输出（像嘴巴👄）
不同任务需要不同的“器官组合”！

3. Transformer 如何学习？—— 自监督预训练

核心思想：让AI “自学成才” ，不用人类标注数据！
两大自学方法：

填空学习法（Masked Language Model）：
随机遮住句子中的词（如“我爱__北京”），让AI猜“吃” ✅
代表：BERT（像闭卷考试）

续写学习法（Causal Language Model）：
给前半句（如“今天天气”），让AI续写“真好” ✅
代表：GPT（像开卷写作文）

4. 为什么需要迁移学习？

问题：从头训练Transformer像 “养恐龙” —— 烧钱又费电！
（训练一次GPT-3 ≈ 3000辆汽车开一年排放的碳🚗💨）
解决方案：微调（Fine-tuning）
- 步骤：
  1. 用海量通用数据预训练大模型（烧钱但只用一次）
  2. 开发者下载现成模型，用 少量专业数据 微调
    （例：用医学论文微调 → 变身“AI医生”）
- 好处：
  - 省时省钱（微调只需1%的数据和算力）
  - 效果更好（站在巨人肩膀上）