当前位置：首页 > news >正文

transform和LLM回顾一下知识点（复习笔记(专业：AI)）

news 2025/10/24 8:55:50

1. Transformer：革命性的“发动机”

在Transformer出现之前，制造“智能汽车”（处理语言的AI）主要有两种发动机：
**RNN（循环神经网络）**：像老式单缸发动机，一次处理一个词，顺序工作，慢且容易忘记开头。
**CNN（卷积神经网络）**：像多缸但视野有限的发动机，能同时处理几个词，但难以理解长距离的上下文关系。

然后，在2017年，谷歌的一篇论文推出了 **Transformer** 这款全新的“V12涡轮增压发动机”。

它的核心创新是两个功能：

**自注意力机制**：让发动机的每个气缸（每个词）都能瞬间看到所有其他气缸（句子中的所有其他词），并知道它们的重要性。比如处理“它”这个字时，能立刻知道“它”指的是句子前面的“苹果”还是“公司”。
**并行计算**：因为所有词都能同时互相关联，所以它可以利用GPU（很多个工人）同时进行计算，训练速度比老式发动机快了无数倍。

简单说：Transformer是一个设计极其巧妙的底层架构，它让模型能够真正“理解”上下文关系，并且训练起来非常高效。

2. LLM框架：基于Transformer制造的“整车”

有了Transformer这款强大的“发动机”，各大车厂（科技公司）就开始用它来造“整车”了。这些整车就是 **LLM框架**。

这些“整车”的基本制造流程是：

1. **预训练（造一个博学但还不专业的司机）**
**做法**：把互联网上几乎所有的文本数据（书籍、文章、网页等）塞给模型，让它去完成一个核心任务：**“根据前面的词，预测下一个词是什么”**。
**结果**：通过这个任务，模型学会了语法、事实、逻辑，甚至一些推理能力，成了一个“万事通”。但它还不会跟你聊天或写邮件。

2. **指令微调（把司机培训成专业的私人助理）**
**做法**：用大量的“指令-回答”对（例如，人类写的问题和高质量的答案）来进一步训练这个“万事通”模型。
*结果**：模型学会了遵循人类的指令，能够进行对话、回答问题、执行任务。这时，它才变成了我们熟悉的ChatGPT这样的聊天机器人。

3. **人类反馈强化学习（让助理变得更贴心、更安全）**
**做法**：让人类标注员对模型的多个回答进行排序（哪个好，哪个坏），模型根据这些“好评”和“差评”来调整自己，更像一个人类喜欢的、有帮助且无害的助手。

**常见的“整车”（LLM框架）例子：**
**GPT系列**（OpenAI）：使用**Decoder**（解码器）部分的Transformer。擅长生成文本。
**BERT系列**（Google）：使用**Encoder**（编码器）部分的Transformer。擅长理解文本，常用于搜索和分类。
**T5， BART** 等：同时使用Encoder和Decoder。擅长文本转换任务，如翻译、摘要

3. 总结与关系

概念	比喻	角色	目的
Transformer	革命性的发动机	技术核心/架构	提供高效处理和理解语言信息的基础能力
LLM框架	基于发动机造的整车	具体产品/系统	利用Transformer的能力，通过海量数据和特定训练方法，打造出能解决实际问题的AI模型。

一句话理解：
Transformer是LLM（大语言模型）的心脏和大脑。没有Transformer，就不会有今天如此强大的ChatGPT等LLM框架。

盆友们，一个上班小牛马的喃喃自语！

查看全文

http://www.dtcms.com/a/520179.html