【4】Transformers快速入门:自然语言模型 vs 统计语言模型
一句话关系总结
统计语言模型 = 自然语言模型的“数学基础”
(就像加减乘除是数学的基础,统计模型是AI学说话的基础工具)
区别对比表(小白版)
维度 | 统计语言模型 | 自然语言模型 |
---|---|---|
本质 | 用数学公式算句子概率 | 用神经网络模仿人脑理解语言 |
工作方式 | 数词频、算概率(像计算器) | 学习词之间的关系(像人脑联想) |
代表技术 | N-gram(数前N个词的概率) | Word2Vec、BERT、GPT(深度学习) |
能力上限 | 只能处理短句,不懂上下文含义 | 能理解长文、多义词、甚至写小说 |
举个栗子🌰 | 判断“我吃苹果”比“苹果吃我”概率高 | 知道“苹果”在“吃”后是水果,在“买”后是手机 |
关系详解(父子进化史)
1. 统计语言模型:爷爷辈的数学派
- 核心任务:计算一句话 “像不像人话”
(比如“狗追猫”概率高 ✅,“猫追狗”概率低 ❌) - 怎么算:
用 N-gram 数词频(例:统计100万句话里“狗追”后出现“猫”的次数) - 缺点:
- 像金鱼记忆,只能看附近2-3个词
- 不懂“狗追猫”和“猫被狗追”其实是同一个意思
2. 自然语言模型:孙辈的学霸派
- 核心技术:神经网络(模拟人脑的算法)
- 升级点:
- 词向量:给每个词发“智能身份证”(例:苹果 = [0.3, -2.1, 5.4])
- 上下文理解:
- Word2Vec 看周围词定含义(静态)
- BERT/GPT 看整句话动态调含义(比如“苹果”在不同句子中向量不同)
- 超能力:
- 写文章、编代码、陪你聊天(ChatGPT)
- 理解“我上周买的苹果坏了”指手机还是水果(靠上下文推理)
关键进化里程碑
统计模型(数概率)
↓
Word2Vec(给词发身份证)
↓
BERT/GPT(动态身份证 + 整段话联想)
越新的模型越像真人:
从 死记硬背 → 学会举一反三!
举个栗子🌰 秒懂区别
任务:判断“银行”指金融机构还是河边
模型类型 | 处理方式 | 结果 |
---|---|---|
统计语言模型 | 数“银行”和“存款”一起出现的概率 | 只能猜一个意思 |
自然语言模型 | 看整句:“我去银行存钱” → 金融机构 “河边的银行很滑” → 河边 | 动态理解正确 ✅ |
总结一句话
- 统计语言模型:AI学说话的 1.0版本(数学公式派)
- 自然语言模型:AI学说话的 3.0版本(神经网络学霸派),包含并超越了统计模型的能力!
💡 小白记忆法:
统计模型 = 算盘(只能加减)
自然语言模型 = 智能手机(能聊天打游戏)
现在你听到的ChatGPT,全是自然语言模型! 🚀