当前位置: 首页 > news >正文

大语言模型(LLM)专业术语汇总

1. 训练与部署

1.1 预训练

  • 专业:在海量无标注文本(如Common Crawl、Wikipedia)上通过自监督学习训练基础语言模型,学习通用语言表征(如GPT-3训练数据达45TB)。
  • 通俗:AI的“通识教育阶段”,通过阅读互联网百科全书掌握基本语言规则。

1.2 微调(SFT)

  • 专业:使用任务特定标注数据(如问答对、指令集)调整预训练模型参数,适配下游任务格式(如ChatGPT对话优化)。
  • 通俗:针对具体岗位(如客服、翻译)进行的“职业技能培训”。

1.3 奖励模型训练

  • 专业:通过人类标注员对模型输出排序(如A/B测试),训练一个可量化输出质量的奖励函数(Reward Model)。
  • 通俗:教练给AI的答案“打分”,教会它分辨好坏回答。

1.4 强化学习微调(RLHF)

  • 专业:结合奖励模型与PPO算法,优化策略模型生成符合人类偏好的输出(如Anthropic Claude的安全对齐)。
  • 通俗:AI通过“考试评分+自我改进”循环,学会答得更得体。

2. 模型架构

2.1 Transformer

  • 专业:基于自注意力机制的神经网络,支持并行处理长序列(如输入4096 Token),是LLM的通用基础架构(如GPT、BERT)。
  • 通俗:AI理解语言的“中央处理器”,能同时关联全文信息。

2.2 MoE(稀疏专家模型)

  • 专业:动态路由机制激活部分专家网络(如Mixtral-8x7B每输入仅用2个专家),提升模型容量且控制计算成本。
  • 通俗:“专家委员会”模式,不同问题自动分配专业AI解答。

2.3 编码器-解码器

  • 专业:编码器压缩输入语义,解码器生成目标序列(如T5统一文本到文本框架)。
  • 通俗:AI先“听懂问题”(编码),再“组织答案”(解码)。

3. 模型类型

3.1 量化模型(INT4/INT8)

  • 专业:将FP32权重压缩为4/8位整数,显存占用减少75%(如LLM.int4()),精度损失<1%。
  • 通俗:模型“极限瘦身”,手机也能运行百亿参数AI。

3.2 非量化模型(FP32/FP16)

  • 专业:保留全精度浮点数权重,训练稳定性高但推理成本高(如科研场景常用FP16)。
  • 通俗:AI的“原装大脑”,精度最高但耗电量大。
3.2.1 FP32(单精度浮点数)
专业定义
  • 全称:32-bit Floating Point(32位浮点数)
  • 二进制结构
1 位符号位 | 8 位指数位 | 23 位尾数位
───────────┬────────────┬────────────正负号    指数范围     小数精度
  • 数值范围:±3.4×10³⁸
  • 精度:约7位有效十进制数字
通俗类比

相当于数学中的“精确计算器”,适合需要高精度的场景(如财务核算),但占用存储空间较大。

LLM中的应用
  • 训练阶段主流格式
    • 梯度计算需要高精度防止数值溢出
    • 示例:训练GPT-3时全程使用FP32
  • 显存占用
70亿参数模型 ≈ 70亿 × 4字节 = 28 GB

3.2.2 FP16(半精度浮点数)
专业定义
  • 全称:16-bit Floating Point(16位浮点数)
  • 二进制结构
1 位符号位 | 5 位指数位 | 10 位尾数位
───────────┬────────────┬────────────正负号    指数范围     小数精度
  • 数值范围:±6.5×10⁴
  • 精度:约3-4位有效十进制数字
通俗类比

相当于“便携计算器”,计算速度快、省电,但复杂运算可能舍入误差。

LLM中的应用
  1. 推理加速
    • 显存占用减半(FP32的50%)
70亿参数模型:28GB → 14GB
- 示例:ChatGPT实时响应使用FP16推理
  1. 混合精度训练
    • 结合FP16+FP32(梯度用FP32防溢出)
    • 速度提升2-3倍(NVIDIA Tensor Core支持)

3.3 蒸馏模型

  • 专业:小模型(学生)模仿大模型(教师)的输出分布,体积缩小60%保留95%性能(如DistilBERT)。
  • 通俗:“高手带徒弟”,小模型继承大模型的经验智慧。

3.4 推理优化模型

  • 专业:通过层融合、内核优化提升推理速度(如vLLM引擎的PagedAttention技术)。
  • 通俗:给AI思维“装上涡轮增压”,回答快3倍。

4. 参数与规模

4.1 小型(<1B)

  • 代表模型:Microsoft Phi-2(27亿参数)
  • 特点:可在手机端部署(如Android App),响应延迟<100ms。

4.2 中型(1B~10B)

  • 代表模型:Meta Llama2-7B、ChatGLM3-6B
  • 特点:单卡消费级GPU(RTX 4090)可运行,适合企业私有化部署。

4.3 大型(10B~100B)

  • 代表模型:GPT-4(约1.8T MoE)、Claude 3(公开版40B)
  • 特点:需8卡A100集群,具备复杂逻辑推理与多任务泛化能力。

4.4 超大规模(>100B)

  • 代表模型:Google Gemini Ultra、Anthropic Claude 3.5
  • 特点:千亿级参数,需专用AI芯片(如TPU v5)集群训练,支持跨模态理解。

5. 生成策略

5.1 解码策略

  • 贪心搜索:每一步选最高概率词,输出确定但易重复(如ATM密码生成)。
  • 束搜索(Beam Search):保留Top-k路径,平衡质量与多样性(如医疗报告生成)。

5.2 Top-k采样

  • 专业:从概率最高的k个候选词中随机采样(k=50为常见值),避免低质量输出。
  • 通俗:AI从“高分答案库”随机抽选,兼顾准确与创意。

5.3 温度控制

  • 专业:调整Softmax概率分布陡度:P_i = exp(z_i/T)/Σexp(z_j/T),低温(T=0.1)保守,高温(T=1.0)创意迸发。
  • 通俗:控制AI“脑洞温度”,低温写合同,高温写诗歌。

5.4 频率惩罚

  • 专业:基于重复次数的对数概率衰减:P(token) = P_original / (1 + λ * count),抑制循环输出(λ=0.5~2.0)。
  • 通俗:防AI“复读机模式”,避免同一词反复出现。

6. 评估与优化

6.1 困惑度

  • 专业:衡量模型预测样本不确定性的指标,越低越好(GPT-4的困惑度≈10.2)。
  • 通俗:AI答题的“迷惑程度”,数值越低说明越自信准确。

6.2 LoRA / PEFT

  • 专业:注入可训练低秩矩阵(ΔW=BA),仅微调0.1%参数(QLoRA支持4-bit微调)。
  • 通俗:给AI“打技能补丁”,升级专业能力不重建大脑。

6.3 RAG

  • 专业:结合FAISS向量检索与LLM生成,通过外部知识库注入提升事实准确性(如企业知识库问答)。
  • 通俗:AI答题前先“翻参考书”,拒绝信口开河。

7. 硬件与算力

7.1 算力

  • 专业表述:算力(Computing Power)是计算机设备或计算系统处理信息的能力,涵盖硬件计算性能(如CPU/GPU的运算速度)与软件算法的协同效率。狭义上以每秒浮点运算次数(FLOPS) 为核心指标,用于量化理论峰值性能。
  • 通俗类比数字世界的“体力值”:算力决定智能设备处理任务的速度上限,如同体力越强的人工作效率越高。手机刷脸支付需0.1秒完成上亿次计算,即高算力的体现
  • 示例:一台超算的算力为1 EFLOPS = 每秒100亿亿次浮点运算。

7.2 通用服务器

  • 配置示例:双路Intel Xeon + 8×NVIDIA A100(80GB),支持70B模型推理。

7.3 高性能计算

  • 技术方案
    • 张量并行(Tensor Parallelism):单层计算拆分多GPU(如Megatron-LM)。
    • 流水线并行(Pipeline Parallelism):模型层拆分不同设备(如DeepSpeed)。

7.4 分布式部署

  • 边缘计算:INT4量化模型 + Jetson Orin模块,工业设备本地故障诊断。
  • 云边协同:中心云训练(H100集群) → 边缘端部署(INT4蒸馏模型)。

资料来源于网络

http://www.dtcms.com/a/264922.html

相关文章:

  • 公用LCU屏的功能、应用场景
  • 【Java面试】Redis的poll函数epoll函数区别?
  • 优雅草蜻蜓T语音会议系统私有化部署方案与RTC技术深度解析-优雅草卓伊凡|clam
  • 【数据结构与算法】哈希表拾遗
  • npm install安装的node_modules是什么
  • 开源计算机视觉的基石:OpenCV 全方位解析
  • RabbitMQ 高级特性之消息确认
  • 【Java面试】讲讲Redis的Cluster的分片机制
  • 前端面试专栏-主流框架:16. vue工程化配置(Vite、Webpack)
  • Django 安装使用教程
  • Linux基本命令篇 —— which命令
  • 无人机AI制导模块运行方式概述
  • 免费版安全性缩水?ToDesk、TeamViewer、向日葵、网易UU远程访问隐私防护测评
  • 【C#引用DLL详解】
  • 使用 JavaScript、Mastra 和 Elasticsearch 构建一个具备代理能力的 RAG 助手
  • docker离线/在线环境下安装elasticsearch
  • SpringCloud系列(47)--SpringCloud Bus实现动态刷新定点通知
  • springboot切面编程
  • 大数据Hadoop之——Hbase下载安装部署
  • CSS外边距合并(塌陷)全解析:原理、场景与解决方案
  • OD 算法题 B卷【求最小步数】
  • 计算机视觉的新浪潮:扩散模型(Diffusion Models)技术剖析与应用前景
  • 360安全卫士占用5037端口(ADB端口)解决方案
  • 【小技巧】Python+PyCharm IDE 配置解释器出错,环境配置不完整或不兼容。(小智AI、MCP、聚合数据、实时新闻查询、NBA赛事查询)
  • 智慧赋能高压并网:分布式光伏监控系统在5.88MW物流园项目的实践解析
  • 深入解析 OPC UA:工业自动化与物联网的关键技术
  • css实现优惠券效果 全
  • DAY 45 通道注意力(SE注意力)
  • langchain从入门到精通(三十四)——RAG优化策略(十)父文档检索器实现拆分和存储平衡
  • JavaFX:属性Property简介