transform和LLM回顾一下知识点(复习笔记(专业:AI))
1. Transformer:革命性的“发动机”
在Transformer出现之前,制造“智能汽车”(处理语言的AI)主要有两种发动机:
**RNN(循环神经网络)**:像老式单缸发动机,一次处理一个词,顺序工作,慢且容易忘记开头。
**CNN(卷积神经网络)**:像多缸但视野有限的发动机,能同时处理几个词,但难以理解长距离的上下文关系。
然后,在2017年,谷歌的一篇论文推出了 **Transformer** 这款全新的“V12涡轮增压发动机”。
它的核心创新是两个功能:
**自注意力机制**:让发动机的每个气缸(每个词)都能瞬间看到所有其他气缸(句子中的所有其他词),并知道它们的重要性。比如处理“它”这个字时,能立刻知道“它”指的是句子前面的“苹果”还是“公司”。
**并行计算**:因为所有词都能同时互相关联,所以它可以利用GPU(很多个工人)同时进行计算,训练速度比老式发动机快了无数倍。
简单说:Transformer是一个设计极其巧妙的底层架构,它让模型能够真正“理解”上下文关系,并且训练起来非常高效。
2. LLM框架:基于Transformer制造的“整车”
有了Transformer这款强大的“发动机”,各大车厂(科技公司)就开始用它来造“整车”了。这些整车就是 **LLM框架**。
这些“整车”的基本制造流程是:
1. **预训练(造一个博学但还不专业的司机)**
**做法**:把互联网上几乎所有的文本数据(书籍、文章、网页等)塞给模型,让它去完成一个核心任务:**“根据前面的词,预测下一个词是什么”**。
**结果**:通过这个任务,模型学会了语法、事实、逻辑,甚至一些推理能力,成了一个“万事通”。但它还不会跟你聊天或写邮件。
2. **指令微调(把司机培训成专业的私人助理)**
**做法**:用大量的“指令-回答”对(例如,人类写的问题和高质量的答案)来进一步训练这个“万事通”模型。
*结果**:模型学会了遵循人类的指令,能够进行对话、回答问题、执行任务。这时,它才变成了我们熟悉的ChatGPT这样的聊天机器人。
3. **人类反馈强化学习(让助理变得更贴心、更安全)**
**做法**:让人类标注员对模型的多个回答进行排序(哪个好,哪个坏),模型根据这些“好评”和“差评”来调整自己,更像一个人类喜欢的、有帮助且无害的助手。
**常见的“整车”(LLM框架)例子:**
**GPT系列**(OpenAI):使用**Decoder**(解码器)部分的Transformer。擅长生成文本。
**BERT系列**(Google):使用**Encoder**(编码器)部分的Transformer。擅长理解文本,常用于搜索和分类。
**T5, BART** 等:同时使用Encoder和Decoder。擅长文本转换任务,如翻译、摘要
3. 总结与关系
| 概念 | 比喻 | 角色 | 目的 |
| Transformer | 革命性的发动机 | 技术核心/架构 | 提供高效处理和理解语言信息的基础能力 |
| LLM框架 | 基于发动机造的整车 | 具体产品/系统 | 利用Transformer的能力,通过海量数据和特定训练方法,打造出能解决实际问题的AI模型。 |
一句话理解:
Transformer是LLM(大语言模型)的心脏和大脑。没有Transformer,就不会有今天如此强大的ChatGPT等LLM框架。
盆友们,一个上班小牛马的喃喃自语!
