Python----大模型(大模型基础)
一、大模型与人工智能关系
AIGC(Al Generated Content,也称生成式AI)
LLM(Large Language Model,也称大语言模型):大指的参数量大
AIGC是指利用人工智能技术自动生成内容,包括文本、图像、音频、视频等。LLM擅长处理和生成自然语言文本。它通过训练大量文本数据,能够学习语言的模式和规律,并基于这些模式和规律生成新的文本。
总结:LLM与AIGC是有交集的两种。
文生图的扩散模型(例如stable Diffusion)属于AIGC,但是不属于大语言模型。大语言模型也不是全部属于AIGC,例如Google的Bert是大语言模型(3.4亿参数),但是擅长的是协助Google检索和情感分析而非生成。
二、大语言模型的基础
2.1、前向过程
2.2、反向过程
2.3、预测过程
三、RNN的处理方式
3.1、RNN示意图
3.2、RNN的缺陷
1、网络的输出具有先后顺序性: 每一步运行输出取决于当前的输入与先 前的隐藏状态,上一步执行完,才会执 行下一步,无法并行计算。
2、记忆丢失: 先前的隐藏状态越往后,越记不住更早 的记忆,会造成记忆丢失,导致没办法 处理长文本,无法捕获长距离的语义关 系。
LSTM/GRU的出现缓解了第二个问题,但依然远远不够。
四、Transformer
目的:学习所有词的相关性和上下文 特征。
Transformer在处理 上下文的时候,不仅会注意到它自己 的词和附近的词,还会注意到序列里 其他的词,并为其赋予不同的权重。 所以能够拿到每一个词与其它所有词 的相关性,所以与距离无关。
组成:
1、位置编码
2、Embedding词嵌入
3、编码器Encoder
4、解码器Decoder
编码器Encoder:获取某个token前后所有的每个token的特征。
解码器Decoder:基于以及生成的token前面所有的特征,生成新的 token。注意:生成的token后面的不获取。
五、大模型的发展
5.1、发展历程
5.2、模型对比
模型类型 | 原理 | 优势 | 缺点 | 代表模型 | 应用场景 |
---|---|---|---|---|---|
基于规则的模型 | 通过人工编写的语法规则和词典进行任务处理 | 逻辑清晰,可解释性强 | 只能处理少量数据和简单任务 | 无具体模型 | 机器翻译、信息检索 |
基于统计的模型 | 使用数学统计方法预测词序列概率(如N-gram) | 可处理更多数据和复杂任务 | 数据稀疏、历史长度受限 | N-gram | 语音识别、文本摘要 |
神经网络的模型 | 利用神经网络学习词的分布式表示和语言结构(如RNN、CNN、LSTM) | 处理大规模数据和复杂任务能力更强 | 依赖计算资源和训练数据 | RNN、CNN、LSTM | 情感分析、对话系统 |
基于预训练的模型 | 利用海量无标注文本进行自监督学习,再微调特定任务 | 泛化能力强,适应多任务和多领域 | 泛化能力受限、安全性问题 | BERT、GPT | 问答系统、知识图谱 |
基于大规模的模型 | 构建数百亿参数规模的深度神经网络,结合大规模无标注数据自监督学习 | 生成和推理能力极强,覆盖广泛任务 | 计算成本高,资源消耗大 | GPT-3、PaLM | 文本生成、复杂逻辑推理 |
5.3、开源模型
模型 | 发布时间 | 参数数量(B) | 基础模型 | 语料库大小 | 硬件 | 训练时间 |
---|---|---|---|---|---|---|
T5 | 2019.10 | 11 | - | 1T tokens | 1024 TPU v3 | - |
PanGu-α | 2021.4 | 13 | - | 1.1TB | 2048 Ascend 910 | - |
CPM-2 | 2021.6 | 198 | - | - | - | - |
T0 | 2021.10 | 11 | T5 | - | 512 TPU v3 | 27h |
CodeGen | 2022.3 | 16 | - | 825GB | - | - |
GPT-NeoX-20B | 2022.4 | 20 | - | 577B tokens | 96 40G A100 | - |
TK-Instruct | 2022.4 | 11 | T5 | - | 256 TPU v3 | 4h |
UL2 | 2022.5 | 20 | - | 1T tokens | 512 TPU v4 | - |
OTP | 2022.5 | 175 | - | 180B tokens | 992 80G A100 | - |
NLLB | 2022.7 | 54.5 | - | - | - | - |
CodeGeeX | 2022.9 | 13 | - | 850B tokens | 1536 Ascend 910 | 60 d |
GLM | 2022.10 | 130 | - | 400B tokens | 768 40G A100 | 60 d |
Flan-T5 | 2022.10 | 11 | T5 | - | - | - |
BLOOM | 2022.11 | 176 | - | 366B tokens | 384 80G A100 | 105 d |
mT0 | 2022.11 | 13 | - | - | - | - |
Galactica | 2022.11 | 120 | - | 106B tokens | - | - |
BLOOMZ | 2022.11 | 176 | BLOOM | - | - | - |
OPT-IML | 2022.12 | 175 | OPT | - | 128 40G A100 | - |
LLaMA | 2023.2 | 65 | - | 1.4T tokens | 2048 80G A100 | 21 d |
Pythia | 2023.4 | 12 | - | 300B tokens | 256 40G A100 | - |
CodeGeM2 | 2023.5 | 16 | - | 400B tokens | - | - |
StarCoder | 2023.5 | 15.5 | - | 1T tokens | 512 40G A100 | - |
LLaMA2 | 2023.7 | 70 | - | 2T tokens | 2000 80G A100 | - |
Baichuan2 | 2023.9 | 13 | - | 2.6T tokens | 1024 A800 | - |
QWEN | 2023.9 | 14 | - | 3T tokens | - | - |
FLM | 2023.9 | 101 | - | 311B tokens | 192 A800 | 22 d |
Skywork | 2023.10 | 13 | - | 3.2T tokens | 512 80G A800 | - |
5.4、闭源模型
模型 | 发布时间 | 参数数量(B) | 基础模型 | 语料库大小 | 硬件 | 训练时间 |
---|---|---|---|---|---|---|
GPT-3 | 2020.5 | 175 | - | 300B tokens | - | - |
GShard | 2020.6 | 600 | - | 1T tokens | 2048 TPU v3 | 4d |
Codex | 2021.7 | 12 | GPT-3 | 100B tokens | - | - |
ERNIE 3.0 | 2021.7 | 10 | - | 375B tokens | 384 V100 | - |
Jurassic-1 | 2021.8 | 178 | - | - | 512 TPU v3 | 27h |
HyperCLOVA | 2021.9 | 82 | - | 300B tokens | 1024 A100 | 13.4 d |
FLAN | 2021.9 | 137 | LaMDA-PT | - | 128 TPU v3 | 60 h |
Yuan 1.0 | 2021.10 | 245 | - | 180B tokens | 2128 GPU | 4h |
Anthropic | 2021.12 | 52 | - | 400B tokens | - | - |
WebGPT | 2021.12 | - | GPT-3 | - | - | - |
Gopher | 2021.12 | 280 | - | 300B tokens | 4096 TPU v3 | 920 h |
ERNIE 3.0 Titan | 2021.12 | 260 | - | - | - | - |
GLaM | 2021.12 | 1200 | - | 280B tokens | 1024 TPU v4 | 574 h |
LaMDA | 2022.1 | 137 | - | 768B tokens | 1024 TPU v3 | 57.7 d |
MT-NLG | 2022.1 | 530 | - | 270B tokens | 4480 80G A100 | - |
AlphaCode | 2022.2 | 41 | - | 967B tokens | - | - |
InstructGPT | 2022.3 | 175 | GPT-3 | - | - | - |
Chinchilla | 2022.3 | 70 | - | 1.4T tokens | - | - |
PaLM | 2022.4 | 540 | - | 780B tokens | 6144 TPU v4 | - |
AlexaTM | 2022.8 | 20 | - | 1.3T tokens | 128 A100 | 120 d |
Sparrow | 2022.9 | 70 | - | - | 64 TPU v3 | - |
WeLM | 2022.9 | 10 | - | 300B tokens | 128 40G A100 | 24 d |
U-PaLM | 2022.10 | 540 | PaLM | - | 512 TPU v4 | 5 d |
Flan-PaLM | 2022.10 | 540 | PaLM | - | 512 TPU v4 | 37 hd |
Flan-U-PaLM | 2022.10 | 540 | U-PaLM | - | - | - |
GPT-4 | 2023.3 | (未知) | - | (多模态, 大) | (未知) | - |
PanGu-Σ | 2023.3 | 1085 | PanGu-α | 329B tokens | 512 Ascend 910 | 100 d |
PaLM2 | 2023.5 | 16 | - | 100B tokens | - | - |