当前位置: 首页 > news >正文

大语言模型(LLM)的基本概念

在这里插入图片描述

在大语言模型(LLM)的知识体系中,Token 和 模型参数 是两大核心基础概念,同时还需结合输入处理、训练逻辑、核心机制等维度,形成完整的概念框架。

一、核心数据处理单元:Token(词元)

Token 是大语言模型处理文本的最小基本单位,是连接“原始文本”与“模型可理解数据”的桥梁,并非传统意义上的“字”或“词”。
1.定义与本质
Token 是通过“分词算法”(如 BPE、SentencePiece、WordPiece)对文本进行拆分后得到的中间单元,平衡了“语义完整性”和“处理效率”:
英文场景:常拆分为“子词(Subword)”,例如 “unhappiness” 会拆分为 un + happiness,“apple” 若常见则保留为单个 Token;
中文场景:因无天然空格分隔,多拆分为“单字”或“常用词组”,例如 “人工智能” 可能拆分为 人工 + 智能,“机器学习” 可能直接作为单个 Token。
2.核心作用
统一输入格式:将任意长度的文本拆分为标准化 Token 序列,便于模型按固定逻辑处理;
解决“未登录词”问题:对于生僻词(如“ChatGPT”早期未收录时),可拆分为更小的已知 Token(如 Chat + G + PT),避免模型“不认识”而无法处理;
关联上下文窗口:模型的“上下文长度”(如 GPT-4 的 8k/32k Token)本质是“单次可处理的 Token 数量上限”,直接决定模型能理解的文本长度(例如 1k Token 约对应 750 个英文单词或 500 个中文字符)。
3.实际影响
成本与速度:API 调用(如 OpenAI)通常按“Token 数量”计费,文本越长、Token 越多,成本越高;同时,Token 数量也影响模型推理速度,越多则处理越慢。

二、模型核心构成:模型参数(Model Parameters)

模型参数是大语言模型“存储知识、学习规律”的核心载体,相当于人类大脑中的“神经连接权重”,直接决定模型的能力上限。
1.定义与本质
参数是模型在训练过程中“自主学习并固定”的数值,主要包括两类:
权重(Weights):连接不同神经元(层)的数值,用于计算“输入信号的重要性”(例如“猫”和“狗”在语义向量中的权重差异);
偏置(Biases):调整神经元输出的偏移量,帮助模型拟合更复杂的语言规律。
这些参数存储在模型的“神经网络层”中(如Transformer的注意力层、全连接层),参数量通常以“亿(10⁸)”或“千亿(10¹¹)”为单位计量。
2.核心作用
承载“语言知识”:训练过程中,模型通过调整参数,将“文本数据中的语法、语义、逻辑、常识”编码到参数中(例如“猫”的参数会关联“哺乳动物、有毛、会喵喵叫”等特征);
决定模型能力规模:参数量是衡量模型“大小”的核心指标,通常参数量越大,模型能学习的知识越丰富、处理复杂任务的能力越强(但需结合优质数据和训练策略):
小模型:如 LLaMA-7B(70亿参数),适合轻量化场景(如本地部署、简单问答);
大模型:如 GPT-3(1750亿参数)、GPT-4(约1万亿参数),可处理复杂任务(如代码生成、逻辑推理、多模态理解)。
3.关键注意点
“参数量≠能力上限”:参数量需与“训练数据质量/规模”“训练策略”匹配——若数据量不足,即便参数量大,模型也可能“学不到有效知识”(即“过拟合”或“欠拟合”);
存储与计算需求:参数量直接决定模型的存储成本(如 1750 亿参数的 GPT-3,若用 4 字节精度存储,需约 700GB 存储空间),也影响推理时的算力需求(参数量越大,需越多 GPU 资源支持)。

三、其他核心概念

除了 Token 和模型参数,以下概念是理解 LLM 工作逻辑的关键,且与前两者紧密关联:
1.上下文窗口(Context Window)
定义:模型单次输入中,能“记住并关联”的最大 Token 序列长度(即“上下文长度”),例如 GPT-4 Turbo 的 128k Token 窗口,可处理约 10 万字的文本。
与 Token 的关联:上下文窗口的“长度限制”本质是“Token 数量限制”——若输入文本拆分后的 Token 数超过窗口长度,模型会“截断”或“遗忘”部分信息,导致理解偏差(如长文档后半段内容无法关联前半段)。
2.预训练(Pre-training)与微调(Fine-tuning)
预训练:模型“从零到一”学习通用语言规律的阶段——用海量无标注文本(如互联网文章、书籍)训练,通过调整“模型参数”,让模型掌握语法、语义、常识(例如“太阳从东方升起”“下雨需要打伞”);
核心:此阶段会确定模型参数的“基础框架”,是模型具备通用能力的前提。
微调:在预训练模型基础上,用“特定领域数据”(如医疗文献、法律条文)进一步调整部分参数,让模型适配具体场景(例如将通用 LLM 微调为“医疗问答模型”);
核心:微调不改变模型的“通用能力”,仅优化参数在特定领域的适配性,成本远低于重新预训练。
3.注意力机制(Attention Mechanism)
定义:LLM 实现“理解上下文关联”的核心机制,能让模型在处理某个 Token 时,“关注”输入序列中其他相关 Token 的信息(类似人类阅读时“重点看关键句”)。
与参数的关联:注意力机制的“关注权重”由模型参数计算得出——例如处理“它追着球跑”中的“它”时,模型会通过参数计算,让“它”更关注前文提到的“狗”(而非“球”或其他词),从而正确理解指代关系。
4.生成式能力(Generative Capability)
定义:LLM 基于输入 Token 序列,按概率生成新 Token 序列的能力(如写文章、编代码、答问题),是区别于传统“分类式模型”的核心特征。
与 Token 的关联:生成过程是“逐 Token 预测”——模型先根据输入 Token 预测第一个输出 Token,再将“输入 Token + 第一个输出 Token”作为新输入,预测第二个输出 Token,以此类推,直到生成完整文本(如回答“什么是 AI?”时,模型会逐 Token 生成“AI 是……”)。
5.温度(Temperature)与 Top-k/Top-p
定义:控制 LLM 生成文本“随机性”的参数,用于调整输出的“多样性”或“确定性”:
温度(Temperature):数值越高(如 1.0),生成的 Token 概率分布越平缓,随机性越强(适合创意写作,如写诗、编故事);数值越低(如 0.1),概率分布越集中,输出越确定(适合事实性问答,如“北京是哪个国家的首都”);
Top-k/Top-p:通过“筛选候选 Token”控制随机性——Top-k 只从概率前 k 个 Token 中选,Top-p 只从概率累积和达 p(如 0.9)的 Token 中选,避免生成无意义的低概率 Token。
6.提示词(Prompt)
定义:用户输入的“指令或问题”,是引导模型生成目标输出的“信号”,例如“写一封请假条”“解释相对论”。
与 Token 的关联:提示词会先拆分为 Token 序列,作为模型的“输入上下文”,模型再基于这些 Token 生成输出——优质提示词(如包含“角色设定”“输出格式要求”)能让模型更精准地理解需求,本质是“优化输入 Token 的序列逻辑”。

四、核心概念关联图

为了更清晰理解各概念的关系,可总结为以下逻辑链:
原始文本 → 拆分为 Token → 输入到“上下文窗口” → 模型通过“注意力机制”调用“模型参数”处理 Token → 预训练/微调优化参数 → 按“温度/Top-k”规则逐 Token 生成输出 → 响应提示词需求
通过以上概念,可完整覆盖 LLM 从“输入处理”到“模型计算”再到“输出生成”的全流程逻辑,也是理解模型能力、局限(如上下文长度限制、参数规模瓶颈)的基础。


文章转载自:

http://E1IzU4lA.gLcgy.cn
http://qLOwE2Ne.gLcgy.cn
http://x7QXQGy3.gLcgy.cn
http://bj94FWOL.gLcgy.cn
http://YhW7K4Wj.gLcgy.cn
http://Xh7LrT7a.gLcgy.cn
http://SswQ0eYg.gLcgy.cn
http://7CGRPEHE.gLcgy.cn
http://QrMmQZc3.gLcgy.cn
http://NIouNxqO.gLcgy.cn
http://mfeAgOVi.gLcgy.cn
http://NO1CFDzd.gLcgy.cn
http://EgoPsqe8.gLcgy.cn
http://YTrAbTWj.gLcgy.cn
http://iTuiKEng.gLcgy.cn
http://zPKZ0oYv.gLcgy.cn
http://RIbUHjkT.gLcgy.cn
http://M0s7mZL3.gLcgy.cn
http://HOruXeBQ.gLcgy.cn
http://Xsf0OxX2.gLcgy.cn
http://Vbb0o7dr.gLcgy.cn
http://Skswb9kT.gLcgy.cn
http://CAU7Y0Ja.gLcgy.cn
http://CTzlwBRV.gLcgy.cn
http://WItoKirc.gLcgy.cn
http://nUwwDdXA.gLcgy.cn
http://LEZW2hRe.gLcgy.cn
http://SuMz1z32.gLcgy.cn
http://B5c4YcWF.gLcgy.cn
http://mD8GHauV.gLcgy.cn
http://www.dtcms.com/a/372140.html

相关文章:

  • unsloth FastLanguageModel类主要函数详解,具体作用和参数
  • HTTPS协议——对于HTTP的协议的加密
  • Qwen2.5-VL翻译
  • 碳纤维和短切碳纤维(中)
  • unsloth 笔记: training的时候进行evaluation
  • 【linux kernel 常用数据结构和设计模式】【数据结构 1】【如何表达数据之间的一对一、一对多、多对多关系】
  • 【软件架构设计(19)】软件架构评估二:软件架构分析方法分类、质量属性场景、软件评估方法发展历程
  • 在OpenHarmony上适配图形显示【1】——确认drm是否正常
  • 四大金刚之计算机组成原理
  • 第 15 篇:PCA与降维——如何在信息爆炸的时代,抓住“主要矛盾”?
  • 《沈南鹏传 - 做最擅长的事》(中篇)读书笔记
  • 还在重启应用改 Topic?Spring Boot 动态 Kafka 消费的“终极形态”
  • 纸飞机飞行漂流瓶小游戏抖音快手微信小程序看广告流量主开源
  • 《沈南鹏传 - 做最擅长的事》(下篇)读书笔记
  • 网易UU远程,免费电脑远程控制软件
  • Prometheus 存储学习
  • 八.迪杰斯特拉(Dijkstra)算法
  • 大模型术语
  • Python入门教程之关系运算符
  • 9. Mono项目与Unity的关系
  • 【C#】 资源共享和实例管理:静态类,Lazy<T>单例模式,IOC容器Singleton我们该如何选
  • 【C语言】函数指针的使用分析:回调、代码逻辑优化、代码架构分层
  • SQLAlchemy ORM-表与表之间的关系
  • 系统架构性能优化与容灾设计深度解析
  • K8s ConfigMap配置管理全解析
  • 【Beetle RP2350】人体运动感应警报系统
  • tomcat下载
  • 数据结构精讲:栈与队列实战指南
  • 风电设备预测性维护方案:AIoT驱动的风电运维智能化转型​
  • Shell脚本监控系统资源详解