当前位置：首页 > news >正文

大语言模型（LLM）的基本概念

news 2025/9/10 2:51:46

在这里插入图片描述

在大语言模型（LLM）的知识体系中，Token 和模型参数是两大核心基础概念，同时还需结合输入处理、训练逻辑、核心机制等维度，形成完整的概念框架。

一、核心数据处理单元：Token（词元）

Token 是大语言模型处理文本的最小基本单位，是连接“原始文本”与“模型可理解数据”的桥梁，并非传统意义上的“字”或“词”。
1.定义与本质
Token 是通过“分词算法”（如 BPE、SentencePiece、WordPiece）对文本进行拆分后得到的中间单元，平衡了“语义完整性”和“处理效率”：
英文场景：常拆分为“子词（Subword）”，例如 “unhappiness” 会拆分为 un + happiness，“apple” 若常见则保留为单个 Token；
中文场景：因无天然空格分隔，多拆分为“单字”或“常用词组”，例如 “人工智能” 可能拆分为 人工 + 智能，“机器学习” 可能直接作为单个 Token。
2.核心作用
统一输入格式：将任意长度的文本拆分为标准化 Token 序列，便于模型按固定逻辑处理；
解决“未登录词”问题：对于生僻词（如“ChatGPT”早期未收录时），可拆分为更小的已知 Token（如 Chat + G + PT），避免模型“不认识”而无法处理；
关联上下文窗口：模型的“上下文长度”（如 GPT-4 的 8k/32k Token）本质是“单次可处理的 Token 数量上限”，直接决定模型能理解的文本长度（例如 1k Token 约对应 750 个英文单词或 500 个中文字符）。
3.实际影响
成本与速度：API 调用（如 OpenAI）通常按“Token 数量”计费，文本越长、Token 越多，成本越高；同时，Token 数量也影响模型推理速度，越多则处理越慢。

二、模型核心构成：模型参数（Model Parameters）

模型参数是大语言模型“存储知识、学习规律”的核心载体，相当于人类大脑中的“神经连接权重”，直接决定模型的能力上限。
1.定义与本质
参数是模型在训练过程中“自主学习并固定”的数值，主要包括两类：
权重（Weights）：连接不同神经元（层）的数值，用于计算“输入信号的重要性”（例如“猫”和“狗”在语义向量中的权重差异）；
偏置（Biases）：调整神经元输出的偏移量，帮助模型拟合更复杂的语言规律。
这些参数存储在模型的“神经网络层”中（如Transformer的注意力层、全连接层），参数量通常以“亿（10⁸）”或“千亿（10¹¹）”为单位计量。
2.核心作用
承载“语言知识”：训练过程中，模型通过调整参数，将“文本数据中的语法、语义、逻辑、常识”编码到参数中（例如“猫”的参数会关联“哺乳动物、有毛、会喵喵叫”等特征）；
决定模型能力规模：参数量是衡量模型“大小”的核心指标，通常参数量越大，模型能学习的知识越丰富、处理复杂任务的能力越强（但需结合优质数据和训练策略）：
小模型：如 LLaMA-7B（70亿参数），适合轻量化场景（如本地部署、简单问答）；
大模型：如 GPT-3（1750亿参数）、GPT-4（约1万亿参数），可处理复杂任务（如代码生成、逻辑推理、多模态理解）。
3.关键注意点
“参数量≠能力上限”：参数量需与“训练数据质量/规模”“训练策略”匹配——若数据量不足，即便参数量大，模型也可能“学不到有效知识”（即“过拟合”或“欠拟合”）；
存储与计算需求：参数量直接决定模型的存储成本（如 1750 亿参数的 GPT-3，若用 4 字节精度存储，需约 700GB 存储空间），也影响推理时的算力需求（参数量越大，需越多 GPU 资源支持）。

三、其他核心概念

除了 Token 和模型参数，以下概念是理解 LLM 工作逻辑的关键，且与前两者紧密关联：
1.上下文窗口（Context Window）
定义：模型单次输入中，能“记住并关联”的最大 Token 序列长度（即“上下文长度”），例如 GPT-4 Turbo 的 128k Token 窗口，可处理约 10 万字的文本。
与 Token 的关联：上下文窗口的“长度限制”本质是“Token 数量限制”——若输入文本拆分后的 Token 数超过窗口长度，模型会“截断”或“遗忘”部分信息，导致理解偏差（如长文档后半段内容无法关联前半段）。
2.预训练（Pre-training）与微调（Fine-tuning）
预训练：模型“从零到一”学习通用语言规律的阶段——用海量无标注文本（如互联网文章、书籍）训练，通过调整“模型参数”，让模型掌握语法、语义、常识（例如“太阳从东方升起”“下雨需要打伞”）；
核心：此阶段会确定模型参数的“基础框架”，是模型具备通用能力的前提。
微调：在预训练模型基础上，用“特定领域数据”（如医疗文献、法律条文）进一步调整部分参数，让模型适配具体场景（例如将通用 LLM 微调为“医疗问答模型”）；
核心：微调不改变模型的“通用能力”，仅优化参数在特定领域的适配性，成本远低于重新预训练。
3.注意力机制（Attention Mechanism）
定义：LLM 实现“理解上下文关联”的核心机制，能让模型在处理某个 Token 时，“关注”输入序列中其他相关 Token 的信息（类似人类阅读时“重点看关键句”）。
与参数的关联：注意力机制的“关注权重”由模型参数计算得出——例如处理“它追着球跑”中的“它”时，模型会通过参数计算，让“它”更关注前文提到的“狗”（而非“球”或其他词），从而正确理解指代关系。
4.生成式能力（Generative Capability）
定义：LLM 基于输入 Token 序列，按概率生成新 Token 序列的能力（如写文章、编代码、答问题），是区别于传统“分类式模型”的核心特征。
与 Token 的关联：生成过程是“逐 Token 预测”——模型先根据输入 Token 预测第一个输出 Token，再将“输入 Token + 第一个输出 Token”作为新输入，预测第二个输出 Token，以此类推，直到生成完整文本（如回答“什么是 AI？”时，模型会逐 Token 生成“AI 是……”）。
5.温度（Temperature）与 Top-k/Top-p
定义：控制 LLM 生成文本“随机性”的参数，用于调整输出的“多样性”或“确定性”：
温度（Temperature）：数值越高（如 1.0），生成的 Token 概率分布越平缓，随机性越强（适合创意写作，如写诗、编故事）；数值越低（如 0.1），概率分布越集中，输出越确定（适合事实性问答，如“北京是哪个国家的首都”）；
Top-k/Top-p：通过“筛选候选 Token”控制随机性——Top-k 只从概率前 k 个 Token 中选，Top-p 只从概率累积和达 p（如 0.9）的 Token 中选，避免生成无意义的低概率 Token。
6.提示词（Prompt）
定义：用户输入的“指令或问题”，是引导模型生成目标输出的“信号”，例如“写一封请假条”“解释相对论”。
与 Token 的关联：提示词会先拆分为 Token 序列，作为模型的“输入上下文”，模型再基于这些 Token 生成输出——优质提示词（如包含“角色设定”“输出格式要求”）能让模型更精准地理解需求，本质是“优化输入 Token 的序列逻辑”。

四、核心概念关联图

为了更清晰理解各概念的关系，可总结为以下逻辑链：
原始文本 → 拆分为 Token → 输入到“上下文窗口” → 模型通过“注意力机制”调用“模型参数”处理 Token → 预训练/微调优化参数 → 按“温度/Top-k”规则逐 Token 生成输出 → 响应提示词需求
通过以上概念，可完整覆盖 LLM 从“输入处理”到“模型计算”再到“输出生成”的全流程逻辑，也是理解模型能力、局限（如上下文长度限制、参数规模瓶颈）的基础。