大语言模型(LLM)专业术语汇总
1. 训练与部署
1.1 预训练
- 专业:在海量无标注文本(如Common Crawl、Wikipedia)上通过自监督学习训练基础语言模型,学习通用语言表征(如GPT-3训练数据达45TB)。
- 通俗:AI的“通识教育阶段”,通过阅读互联网百科全书掌握基本语言规则。
1.2 微调(SFT)
- 专业:使用任务特定标注数据(如问答对、指令集)调整预训练模型参数,适配下游任务格式(如ChatGPT对话优化)。
- 通俗:针对具体岗位(如客服、翻译)进行的“职业技能培训”。
1.3 奖励模型训练
- 专业:通过人类标注员对模型输出排序(如A/B测试),训练一个可量化输出质量的奖励函数(Reward Model)。
- 通俗:教练给AI的答案“打分”,教会它分辨好坏回答。
1.4 强化学习微调(RLHF)
- 专业:结合奖励模型与PPO算法,优化策略模型生成符合人类偏好的输出(如Anthropic Claude的安全对齐)。
- 通俗:AI通过“考试评分+自我改进”循环,学会答得更得体。
2. 模型架构
2.1 Transformer
- 专业:基于自注意力机制的神经网络,支持并行处理长序列(如输入4096 Token),是LLM的通用基础架构(如GPT、BERT)。
- 通俗:AI理解语言的“中央处理器”,能同时关联全文信息。
2.2 MoE(稀疏专家模型)
- 专业:动态路由机制激活部分专家网络(如Mixtral-8x7B每输入仅用2个专家),提升模型容量且控制计算成本。
- 通俗:“专家委员会”模式,不同问题自动分配专业AI解答。
2.3 编码器-解码器
- 专业:编码器压缩输入语义,解码器生成目标序列(如T5统一文本到文本框架)。
- 通俗:AI先“听懂问题”(编码),再“组织答案”(解码)。
3. 模型类型
3.1 量化模型(INT4/INT8)
- 专业:将FP32权重压缩为4/8位整数,显存占用减少75%(如LLM.int4()),精度损失<1%。
- 通俗:模型“极限瘦身”,手机也能运行百亿参数AI。
3.2 非量化模型(FP32/FP16)
- 专业:保留全精度浮点数权重,训练稳定性高但推理成本高(如科研场景常用FP16)。
- 通俗:AI的“原装大脑”,精度最高但耗电量大。
3.2.1 FP32(单精度浮点数)
专业定义
- 全称:32-bit Floating Point(32位浮点数)
- 二进制结构:
1 位符号位 | 8 位指数位 | 23 位尾数位
───────────┬────────────┬────────────正负号 指数范围 小数精度
- 数值范围:±3.4×10³⁸
- 精度:约7位有效十进制数字
通俗类比
相当于数学中的“精确计算器”,适合需要高精度的场景(如财务核算),但占用存储空间较大。
LLM中的应用
- 训练阶段主流格式:
- 梯度计算需要高精度防止数值溢出
- 示例:训练GPT-3时全程使用FP32
- 显存占用:
70亿参数模型 ≈ 70亿 × 4字节 = 28 GB
3.2.2 FP16(半精度浮点数)
专业定义
- 全称:16-bit Floating Point(16位浮点数)
- 二进制结构:
1 位符号位 | 5 位指数位 | 10 位尾数位
───────────┬────────────┬────────────正负号 指数范围 小数精度
- 数值范围:±6.5×10⁴
- 精度:约3-4位有效十进制数字
通俗类比
相当于“便携计算器”,计算速度快、省电,但复杂运算可能舍入误差。
LLM中的应用
- 推理加速:
- 显存占用减半(FP32的50%)
70亿参数模型:28GB → 14GB
- 示例:ChatGPT实时响应使用FP16推理
- 混合精度训练:
- 结合FP16+FP32(梯度用FP32防溢出)
- 速度提升2-3倍(NVIDIA Tensor Core支持)
3.3 蒸馏模型
- 专业:小模型(学生)模仿大模型(教师)的输出分布,体积缩小60%保留95%性能(如DistilBERT)。
- 通俗:“高手带徒弟”,小模型继承大模型的经验智慧。
3.4 推理优化模型
- 专业:通过层融合、内核优化提升推理速度(如vLLM引擎的PagedAttention技术)。
- 通俗:给AI思维“装上涡轮增压”,回答快3倍。
4. 参数与规模
4.1 小型(<1B)
- 代表模型:Microsoft Phi-2(27亿参数)
- 特点:可在手机端部署(如Android App),响应延迟<100ms。
4.2 中型(1B~10B)
- 代表模型:Meta Llama2-7B、ChatGLM3-6B
- 特点:单卡消费级GPU(RTX 4090)可运行,适合企业私有化部署。
4.3 大型(10B~100B)
- 代表模型:GPT-4(约1.8T MoE)、Claude 3(公开版40B)
- 特点:需8卡A100集群,具备复杂逻辑推理与多任务泛化能力。
4.4 超大规模(>100B)
- 代表模型:Google Gemini Ultra、Anthropic Claude 3.5
- 特点:千亿级参数,需专用AI芯片(如TPU v5)集群训练,支持跨模态理解。
5. 生成策略
5.1 解码策略
- 贪心搜索:每一步选最高概率词,输出确定但易重复(如ATM密码生成)。
- 束搜索(Beam Search):保留Top-k路径,平衡质量与多样性(如医疗报告生成)。
5.2 Top-k采样
- 专业:从概率最高的k个候选词中随机采样(k=50为常见值),避免低质量输出。
- 通俗:AI从“高分答案库”随机抽选,兼顾准确与创意。
5.3 温度控制
- 专业:调整Softmax概率分布陡度:
P_i = exp(z_i/T)/Σexp(z_j/T)
,低温(T=0.1)保守,高温(T=1.0)创意迸发。 - 通俗:控制AI“脑洞温度”,低温写合同,高温写诗歌。
5.4 频率惩罚
- 专业:基于重复次数的对数概率衰减:
P(token) = P_original / (1 + λ * count)
,抑制循环输出(λ=0.5~2.0)。 - 通俗:防AI“复读机模式”,避免同一词反复出现。
6. 评估与优化
6.1 困惑度
- 专业:衡量模型预测样本不确定性的指标,越低越好(GPT-4的困惑度≈10.2)。
- 通俗:AI答题的“迷惑程度”,数值越低说明越自信准确。
6.2 LoRA / PEFT
- 专业:注入可训练低秩矩阵(ΔW=BA),仅微调0.1%参数(QLoRA支持4-bit微调)。
- 通俗:给AI“打技能补丁”,升级专业能力不重建大脑。
6.3 RAG
- 专业:结合FAISS向量检索与LLM生成,通过外部知识库注入提升事实准确性(如企业知识库问答)。
- 通俗:AI答题前先“翻参考书”,拒绝信口开河。
7. 硬件与算力
7.1 算力
- 专业表述:算力(Computing Power)是计算机设备或计算系统处理信息的能力,涵盖硬件计算性能(如CPU/GPU的运算速度)与软件算法的协同效率。狭义上以每秒浮点运算次数(FLOPS) 为核心指标,用于量化理论峰值性能。
- 通俗类比:数字世界的“体力值”:算力决定智能设备处理任务的速度上限,如同体力越强的人工作效率越高。手机刷脸支付需0.1秒完成上亿次计算,即高算力的体现
- 示例:一台超算的算力为1 EFLOPS = 每秒100亿亿次浮点运算。
7.2 通用服务器
- 配置示例:双路Intel Xeon + 8×NVIDIA A100(80GB),支持70B模型推理。
7.3 高性能计算
- 技术方案:
- 张量并行(Tensor Parallelism):单层计算拆分多GPU(如Megatron-LM)。
- 流水线并行(Pipeline Parallelism):模型层拆分不同设备(如DeepSpeed)。
7.4 分布式部署
- 边缘计算:INT4量化模型 + Jetson Orin模块,工业设备本地故障诊断。
- 云边协同:中心云训练(H100集群) → 边缘端部署(INT4蒸馏模型)。
资料来源于网络