当前位置: 首页 > news >正文

Python----大模型(大模型基础)

一、大模型与人工智能关系

AIGC(Al Generated Content,也称生成式AI)

LLM(Large Language Model,也称大语言模型):大指的参数量大

        AIGC是指利用人工智能技术自动生成内容,包括文本、图像、音频、视频等。LLM擅长处理和生成自然语言文本。它通过训练大量文本数据,能够学习语言的模式和规律,并基于这些模式和规律生成新的文本。

总结:LLM与AIGC是有交集的两种。

        文生图的扩散模型(例如stable Diffusion)属于AIGC,但是不属于大语言模型。大语言模型也不是全部属于AIGC,例如Google的Bert是大语言模型(3.4亿参数),但是擅长的是协助Google检索和情感分析而非生成。

二、大语言模型的基础

2.1、前向过程

2.2、反向过程

2.3、预测过程

三、RNN的处理方式

3.1、RNN示意图

3.2、RNN的缺陷 

1、网络的输出具有先后顺序性: 每一步运行输出取决于当前的输入与先 前的隐藏状态,上一步执行完,才会执 行下一步,无法并行计算。

2、记忆丢失: 先前的隐藏状态越往后,越记不住更早 的记忆,会造成记忆丢失,导致没办法 处理长文本,无法捕获长距离的语义关 系。

LSTM/GRU的出现缓解了第二个问题,但依然远远不够。

四、Transformer

        目的:学习所有词的相关性和上下文 特征。

        Transformer在处理 上下文的时候,不仅会注意到它自己 的词和附近的词,还会注意到序列里 其他的词,并为其赋予不同的权重。 所以能够拿到每一个词与其它所有词 的相关性,所以与距离无关。

组成:

        1、位置编码

        2、Embedding词嵌入

        3、编码器Encoder

        4、解码器Decoder

编码器Encoder:获取某个token前后所有的每个token的特征。

解码器Decoder:基于以及生成的token前面所有的特征,生成新的 token。注意:生成的token后面的不获取。

五、大模型的发展

5.1、发展历程

5.2、模型对比 

模型类型原理优势缺点代表模型应用场景
基于规则的模型通过人工编写的语法规则和词典进行任务处理逻辑清晰,可解释性强只能处理少量数据和简单任务无具体模型机器翻译、信息检索
基于统计的模型使用数学统计方法预测词序列概率(如N-gram)可处理更多数据和复杂任务数据稀疏、历史长度受限N-gram语音识别、文本摘要
神经网络的模型利用神经网络学习词的分布式表示和语言结构(如RNN、CNN、LSTM)处理大规模数据和复杂任务能力更强依赖计算资源和训练数据RNN、CNN、LSTM情感分析、对话系统
基于预训练的模型利用海量无标注文本进行自监督学习,再微调特定任务泛化能力强,适应多任务和多领域泛化能力受限、安全性问题BERT、GPT问答系统、知识图谱
基于大规模的模型构建数百亿参数规模的深度神经网络,结合大规模无标注数据自监督学习生成和推理能力极强,覆盖广泛任务计算成本高,资源消耗大GPT-3、PaLM文本生成、复杂逻辑推理

5.3、开源模型

模型发布时间参数数量(B)基础模型语料库大小硬件训练时间
T52019.1011-1T tokens1024 TPU v3-
PanGu-α2021.413-1.1TB2048 Ascend 910-
CPM-22021.6198----
T02021.1011T5-512 TPU v327h
CodeGen2022.316-825GB--
GPT-NeoX-20B2022.420-577B tokens96 40G A100-
TK-Instruct2022.411T5-256 TPU v34h
UL22022.520-1T tokens512 TPU v4-
OTP2022.5175-180B tokens992 80G A100-
NLLB2022.754.5----
CodeGeeX2022.913-850B tokens1536 Ascend 91060 d
GLM2022.10130-400B tokens768 40G A10060 d
Flan-T52022.1011T5---
BLOOM2022.11176-366B tokens384 80G A100105 d
mT02022.1113----
Galactica2022.11120-106B tokens--
BLOOMZ2022.11176BLOOM---
OPT-IML2022.12175OPT-128 40G A100-
LLaMA2023.265-1.4T tokens2048 80G A10021 d
Pythia2023.412-300B tokens256 40G A100-
CodeGeM22023.516-400B tokens--
StarCoder2023.515.5-1T tokens512 40G A100-
LLaMA22023.770-2T tokens2000 80G A100-
Baichuan22023.913-2.6T tokens1024 A800-
QWEN2023.914-3T tokens--
FLM2023.9101-311B tokens192 A80022 d
Skywork2023.1013-3.2T tokens512 80G A800-

5.4、闭源模型

模型发布时间参数数量(B)基础模型语料库大小硬件训练时间
GPT-32020.5175-300B tokens--
GShard2020.6600-1T tokens2048 TPU v34d
Codex2021.712GPT-3100B tokens--
ERNIE 3.02021.710-375B tokens384 V100-
Jurassic-12021.8178--512 TPU v327h
HyperCLOVA2021.982-300B tokens1024 A10013.4 d
FLAN2021.9137LaMDA-PT-128 TPU v360 h
Yuan 1.02021.10245-180B tokens2128 GPU4h
Anthropic2021.1252-400B tokens--
WebGPT2021.12-GPT-3---
Gopher2021.12280-300B tokens4096 TPU v3920 h
ERNIE 3.0 Titan2021.12260----
GLaM2021.121200-280B tokens1024 TPU v4574 h
LaMDA2022.1137-768B tokens1024 TPU v357.7 d
MT-NLG2022.1530-270B tokens4480 80G A100-
AlphaCode2022.241-967B tokens--
InstructGPT2022.3175GPT-3---
Chinchilla2022.370-1.4T tokens--
PaLM2022.4540-780B tokens6144 TPU v4-
AlexaTM2022.820-1.3T tokens128 A100120 d
Sparrow2022.970--64 TPU v3-
WeLM2022.910-300B tokens128 40G A10024 d
U-PaLM2022.10540PaLM-512 TPU v45 d
Flan-PaLM2022.10540PaLM-512 TPU v437 hd
Flan-U-PaLM2022.10540U-PaLM---
GPT-42023.3(未知)-(多模态, 大)(未知)-
PanGu-Σ2023.31085PanGu-α329B tokens512 Ascend 910100 d
PaLM22023.516-100B tokens--

5.5、 不同模型所用数据集的差异

相关文章:

  • 拉力测试cuda pytorch 把 4070显卡拉满
  • EasyRTC音视频实时通话功能在WebRTC与智能硬件整合中的应用与优势
  • Python 高级应用10:在python 大型项目中 FastAPI 和 Django 的相互配合
  • AI 边缘计算网关推动各行业的数字化转型和智能化升级
  • 十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建
  • 【OpenCV】相机标定之利用棋盘格信息标定
  • games101 hw1
  • 2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面
  • WebRTC调研
  • CRMEB 中 PHP 短信扩展开发:涵盖一号通、阿里云、腾讯云、创蓝
  • 初版BL程序一些细节整理(碎碎念)
  • Rust 学习笔记:关于共享状态并发的练习题
  • UNECE R152——解读自动驾驶相关标准法规(AEB)
  • 【向量库】Weaviate概述与架构解析
  • 0day同步!昇思MindSpore框架成功适配面壁MiniCPM4.0模型并上线魔乐社区
  • 树莓派4B, ubuntu20.04, 安装Ros Noetic[踩坑记录]
  • 云原生K8s+Docker+KubeSphere+DevOps
  • K8S认证|CKS题库+答案| 10. Trivy 扫描镜像安全漏洞
  • 数据可视化交互
  • go 里面的指针
  • 品牌网站设计公司哪家/长沙靠谱的关键词优化
  • 临沂做网站的公司有哪些/青岛seo博客
  • 汕头潮南区/seo百度关键词排名
  • 网站建设 发票/保定seo网站推广
  • 数据库服务器/怎么做好网站搜索引擎优化
  • 网站建设公司兴田德润i简介/阿里云域名查询