当前位置: 首页 > news >正文

大模型常用术语

🧠 1. 模型参数(Model Parameters)

  • 本质:大模型的“参数量”,本质是神经网络中可学习的权重与偏置总量,类比人类大脑中神经元连接的复杂程度,单位通常以十亿(B)计量。核心逻辑是:参数量越大,模型的“知识储备”越丰富,处理复杂问题(如数学推理、多模态生成)的准确率越高——这就像图书馆藏书越多,能解答的问题范围越广。
  • 规模分级(典型模型):
    参数量级代表模型能力边界硬件需求
    1-7BLlama-3-8B, Phi-3文本生成/简单推理消费级GPU(RTX 4090)
    70B+GPT-4, Claude 3 Opus人类水平推理/多模态千卡集群 + 3D并行
  • 核心逻辑
    • 正向影响:参数量↑ → 知识储备↑ → 复杂任务(数学推理、创意生成)准确率↑(如100B模型比10B模型回答更详细)。

📜 2. 上下文长度(Context Window)

  • 本质:指模型单次处理信息时,能覆盖的前后内容范围,相当于人类阅读时“一眼能看多少字”,在自然语言处理(NLP)、长文档分析等场景中起决定性作用——上下文越长,模型对“上下文逻辑”的理解越完整,避免出现“前文提过的信息后文遗忘”的问题。
  • 场景适配
    Token长度汉字容量适用场景
    2K~1000字客服对话、短文本分析
    4K~2000字等文档处理,如新闻稿撰写、短篇报告分析,支持约2000汉字输入
    8K~8192字长文分析场景,如行业报告摘要、小说章节创作,覆盖约4000汉字;
    32K+~1.6万字整书翻译、法律条文梳理
  • 关键发现(斯坦福研究):
    • 📉 U型性能曲线:模型对开头/结尾信息敏感,中间信息易丢失(如长文档中关键段落在中部时,准确率下降20%)。
    • 优化方向:向量数据库检索(RAG)优先定位关键信息,而非盲目扩展上下文。

⚖️ 3. 量化(Quantization)

  • 本质:是通过降低模型参数的数值精度,将高精度浮点运算(如FP32,32位浮点数)转换为低精度格式(如INT8、INT4整数,或FP8混合精度)的压缩方法。其核心逻辑是“牺牲微小精度,换取部署效率”——就像把高清视频(FP32)转成标清(INT8),画质略有下降,但存储体积变小、播放更流畅。
  • 核心优势
    精度类型存储占比推理加速适用硬件
    FP32100%1x科学计算卡
    INT825%2-4x主流GPU(A100)
    INT412.5%4-8x边缘设备(Jetson)
  • 技术分类
    • PTQ(训练后量化):快速部署,精度损失5-15% → 适合实时任务(语音识别)。
    • QAT(量化感知训练):精度损失<3% → 适合医疗/金融等高敏场景。

🍶 4. 蒸馏(Distillation)

  • 本质:将大模型知识迁移至小模型,实现“轻量高仿”。
  • 方法对比
    类型优势劣势典型案例
    跨模型蒸馏融合多教师优势依赖教师模型质量R1-Distill-Qwen-7B(671B→7B)
    同模型蒸馏架构兼容性高知识覆盖度受限GPT-4 → DistillGPT-2
  • 效果:小模型达教师模型75%性能,显存占用↓80%(如70B模型蒸馏后仅需14GB)。

🧱 5. Token

  • 本质:文本处理的最小单位,相当于“语言积木”。 分词器决定计数差异:不同模型的分词器(Tokenzier)逻辑不同,导致相同文本的Token消耗不同。例如DeepSeek的分词器对中文优化更优,“人工智能大模型”会被拆分为1个Token,而部分国外模型可能拆分为“人工”“智能”“大模型”3个Token,相同文本的Token消耗相差3倍;
    • 计费参考
      1 英文字符 ≈ 0.3 Token  → "AI" = 0.6 Token  
      1 中文字符 ≈ 0.6 Token  → "大模型" = 1.8 Token  
      

🧩 6. MoE(Mixture of Experts)

  • 让大模型“专人做专事”的混合专家架构
    MOE架构的核心特点
  • 稀疏激活(Sparse Activation):每个Token仅触发少数专家模块,如处理数学题时激活“代数专家”“几何专家”,处理文案时激活“修辞专家”“逻辑专家”,计算量比全参数模型(Dense模型)减少80%;
  • 动态专家分配(Dynamic Routing):门控网络通过分析输入数据特征,实时选择最优专家。例如用户输入“写一份新能源汽车营销方案”,门控网络会优先激活“汽车行业专家”“营销策划专家”,确保输出贴合需求;
  • 高可扩展性:可通过增加专家模块扩展模型能力,无需重构整体架构。例如DeepSeek为医疗场景新增“医学术语专家”“影像分析专家”,即可快速适配医疗问答任务;
    效率优势显著:对比同参数量的Dense模型,MOE模型的推理速度快3-5倍,训练周期缩短40%,适合超大规模模型(如1T参数以上)的研发。
    MOE的技术挑战
  • 训练不稳定:若门控网络分配策略不当,可能导致部分专家“过载”、部分“闲置”,影响模型效果。DeepSeek通过“专家热度调节机制”,将专家利用率差异从40%缩小到15%,缓解了这一问题;
  • 存储开销高:未激活的专家模块虽不消耗算力,但仍需占用显存。例如R1 671B模型,即使仅激活37B参数,仍需存储全部671B参数,对硬件显存要求较高;
  • 实现复杂度高:需设计门控网络、专家负载均衡、分布式通信等模块,开发成本比Dense模型高30%,适合技术实力较强的企业。

🔍 7. RAG(Retrieval-Augmented Generation)

  • 本质:给模型装配“实时知识外挂”,解决幻觉与知识滞后。 是解决大模型“知识滞后、领域不熟”的核心技术——相当于给模型装了一个“实时搜索引擎+专业知识库”,让模型在生成回答前,先从外部数据源(如企业文档、官网信息、最新政策)中检索相关信息,再结合检索结果生成准确内容。
  • 工作流
    用户问题
    检索外部知识库
    模型生成答案
    输出+溯源引用
  • 场景扩展
    • 多模态RAG:工业质检系统检索历史故障图,生成维修方案。
    • 智能体协同:电商客服Agent自动调用库存API,实时回复订单查询。
  • RAG的核心优势与场景
  1. 解决知识滞后问题:无需重新训练模型,通过更新检索库即可同步最新知识。例如金融领域的RAG系统,每天自动爬取证监会、交易所公告,确保模型生成的投资建议贴合最新政策;
  2. 提升领域专业性:通过“外挂领域知识库”,让通用大模型变身“行业专家”。例如医疗RAG系统接入《临床诊疗指南》《药品说明书》,模型就能给出符合临床规范的诊断建议;
  3. 降低幻觉风险:模型生成的内容可追溯到检索来源,减少“编造信息”的情况。例如法律RAG系统生成合同条款时,会标注引用的《民法典》条款编号,方便用户核查;
  4. 支持多模态扩展:除了文本检索,RAG还能对接图像、视频库。例如工业质检RAG系统,检索历史故障图片与解决方案,结合实时拍摄的设备照片,生成故障排查步骤。

🎮 8. RL(Reinforcement Learning)

  • 本质:通过“试错学习”优化模型行为,核心方法 RLHF(人类反馈强化学习)。 让模型像人类一样,通过“做动作→拿反馈→调策略”的循环,自主优化能力,无需依赖海量标注数据。
  • 流程
    1. 人类标注优质回答 → 训练奖励模型。
    2. PPO算法调整模型 → 输出更符人类偏好(如GPT-4对话更自然)。

🤖 9. 智能体(Agent)

指能自主感知环境、做决策、执行任务的AI系统——区别于传统聊天机器人(只能对话),智能体可以像“办事员”一样,独立完成连续任务,甚至持续工作数天,无需人类干预。

  • OpenAI的AI能力五阶段划分
    按OpenAI对AI能力的分级,智能体处于第三阶段,是从“被动响应”到“主动执行”的关键跨越:
  1. Level 1:聊天机器人(Conversational AI):当前主流阶段,如ChatGPT、Claude,能进行自然语言对话,但仅能处理语言类任务,无自主办事能力;
  2. Level 2:推理者(Reasoners):能解决复杂问题(如数学证明、学术分析),但无法使用外部工具,相当于“只会思考不会动手”;
  3. Level 3:智能体(Agents):能自主调用工具、执行连续任务,如“帮用户订机票→预约酒店→生成行程单”,2025年被普遍认为是智能体发展元年;
  4. Level 4:创新者(Innovators):能辅助发明创造,如设计新药物分子、提出技术专利,推动科学进步;
  5. Level 5:组织者(Organizations):能管理整个组织的工作,如运营公司、协调团队,效率超越传统人类模式。
  • 企业应用:DeepSeek企业套件对接ERP系统,自动完成销售分析→营销方案生成,效率↑40%。

🌐 10. 具身智能(Embodied AI)

  • 本质:AI在物理环境中学习与交互(如机器人、自动驾驶)。

  • 技术融合

    • 世界模型:学习物理规律(如重力碰撞)。
    • 多模态感知:视觉+语音+传感器数据联合训练。
      智能体、AIGC与AGI的关系
      很多人会混淆这三个概念,其实它们是“目标-路径”的关系,可通过“餐厅类比”理解:
  • AGI(通用人工智能):相当于“全能餐厅老板”,能管理菜单设计、员工调度、客户服务、财务核算等所有事务,是长期理想目标,目前仍处于理论探索阶段;

  • AIGC(生成式AI):相当于餐厅的“创意厨师”,专注于“内容创作”(如设计新菜品、制作菜单),是AGI的“文艺分支”,已大规模商用(如文案生成、图像创作);

  • 智能体(Agent):相当于餐厅的“服务员”,专注于“任务执行”(如感知顾客需求、推荐菜品、端送食物),是AGI的“行动分支”,目前部分场景已落地(如客服智能体、办公智能体)
    从技术成熟度看:AIGC(商用化)>智能体(部分落地)>AGI(理论探索)。2025年1月,OpenAI已上线首款智能体Operator,支持餐饮推荐、活动预订、购物咨询等服务;国内DeepSeek也推出“企业智能体套件”,对接ERP、CRM系统后,可自动完成“销售数据统计→客户分层→营销方案生成”,某电商企业使用后,营销决策效率提升40%

术语关系图

模型参数
上下文长度
量化
蒸馏
Token
MoE
RAG
智能体
具身智能
RL

注:参考博客:大模型术语全解。

http://www.dtcms.com/a/355766.html

相关文章:

  • 机器视觉学习-day10-图像添加水印
  • 帕萨特盘式制动器cad+设计说明书
  • TensorFlow 面试题及详细答案 120道(41-50)-- 数据输入与管道
  • workflow/http_parser源码解密:HTTP解析器的双倍扩容与零拷贝策略
  • 【C#】征服 .NET Framework 4.8 中的“古董”日期格式:/Date(1754548600000)/ 和 ISO 8601
  • 【Nacos】优雅规范的使用和管理yml配置文件
  • 苍穹外卖项目笔记day01
  • 工业级TF卡NAND + 北京君正 + Rk瑞芯微的应用
  • 本地大模型部署(下载) vs. 从头训练大模型
  • APP手游使用游戏盾SDK为何能有效抵御各类攻击?
  • ApiFox高并发测试用例
  • hintcon2025 IMGC0NV
  • 2024中山大学研保研上机真题
  • 多模态融合新纪元:Ovis2.5 本地部署教程,实现文本、图像与代码的深度协同推理
  • 力扣hot100:滑动窗口最大值优化策略及思路讲解(239)
  • MySQL 索引失效全解析与优化指南
  • 【软考】中级网络工程师历年真题合集下载(2015-2024)
  • Java多线程超详学习内容
  • Python 中的反射机制与动态灵活性
  • Spring学习笔记:Spring JDBC(jdbc Template)的深入学习和使用
  • 行业前瞻:在线教育系统源码与网校APP开发的技术进化方向
  • C++学习笔记之异常处理
  • Pruning-Guided Curriculum Learning
  • 机器视觉学习-day06-图像旋转
  • MPPT的基本原理
  • 如何循环同步下载文件
  • Yolov8 pose 推理部署笔记
  • HTML应用指南:利用POST请求获取全国中国工商银行网点位置信息
  • 序列化,应用层自定义协议
  • 万博智云联合华为云共建高度自动化的云容灾基线解决方案