当前位置：首页 > news >正文

LLM常见名词记录

news 2025/8/21 7:50:54

核心模型与架构

LLM：Large Language Model（大语言模型），专指处理自然语言的大规模预训练模型。
就是能理解和生成人类语言的巨型AI模型，像ChatGPT、文心一言这些都属于LLM，肚子里装了海量文本知识。
Transformer：基于自注意力机制的神经网络架构，是几乎所有现代LLM的基础框架。论文链接：https://arxiv.org/abs/1706.03762
LLM的“骨架”，就像盖房子的钢筋结构，所有大模型基本都靠它来搭建，能让模型更好地理解文本里的关系。
BERT：Bidirectional Encoder Representations from Transformers（基于Transformer的双向编码器表示），双向预训练语言模型，擅长理解上下文。论文链接：https://arxiv.org/abs/1810.04805
一个“阅读理解高手”，读句子时会同时看左边和右边的词，比如理解“他打了球”，会结合前后文判断“打”是“打球”还是“打人”。
GPT：Generative Pretrained Transformer（生成式预训练Transformer），生成式语言模型，擅长文本生成。
一个“写作高手”，能顺着前文往下编内容，比如你说“今天天气很好”，它能接“适合去公园散步”。
Encoder（编码器）：Transformer组件，将输入文本转换为含上下文的特征表示，是BERT等模型的核心。
负责“读懂”输入的文本，把文字变成模型能理解的“内部密码”，比如把“猫吃鱼”转换成包含“猫”和“鱼”关系的代码。
Decoder（解码器）：Transformer组件，基于编码器输出生成目标文本，是GPT等生成式模型的核心。
负责“写出”输出的文本，根据编码器给的“内部密码”，生成人类能看懂的句子，比如把“猫和鱼的关系”密码转成“猫喜欢吃鱼”。
自注意力机制（Self-Attention Mechanism）：Transformer的核心，使模型能关注输入文本中不同位置的关联，理解上下文。
模型的“注意力”，读句子时会自动判断哪个词和哪个词关系近，比如“小明买了苹果，他很喜欢吃它”，能知道“它”指“苹果”。
注意力头（Attention Head）：自注意力机制的子空间，多个注意力头并行捕捉不同特征，增强模型理解能力。
就像人有多个“视角”，一个注意力头可能关注词的位置，另一个关注词的感情，多个视角合起来理解更全面。
Multi-Head Attention：多头注意力，Transformer中拆分注意力机制为多个“头”，分别学习不同特征，提升LLM表现力。
让模型同时用多个“注意力头”看文本，比如一边看句子结构，一边看词的意思，最后把结果综合起来，理解更透彻。
Positional Encoding：位置编码，为Transformer提供序列位置信息（因模型本身无顺序记忆），是LLM处理文本顺序的基础。
给每个词贴个“位置标签”，告诉模型“这个词在句子的第3位，那个在第5位”，不然模型分不清“我打他”和“他打我”的区别。
Encoder-Decoder Architecture：编码器-解码器架构，LLM中用于序列到序列任务（如翻译、生成）的经典结构，编码器处理输入，解码器生成输出。
就像“翻译机”的工作流程，编码器先“听懂”中文，解码器再“说出”英文，输入和输出是不同的序列。
MoE（Mixture of Experts）：混合专家模型，通过多个“专家”网络并行处理输入，门控机制选择最优输出，是大规模LLM提升效率的重要架构（如GPT-4部分采用）。
模型里有多个“专家”，有的擅长写诗，有的擅长算数学，你提问时，“门控”会挑出最适合的专家来回答，既高效又准确。

训练与优化

预训练（Pretraining）：LLM在大规模通用文本（如书籍、网页）上的初始训练，学习语言规律和通用知识。
模型的“小学阶段”，疯狂读各种书、网页，学认字、学语法、记常识，比如知道“地球是圆的”“水会结冰”。
微调（Fine-tuning）：在预训练模型基础上，用特定任务数据（如问答、翻译）进一步训练，适配具体场景。
模型的“职业培训”，比如预训练后再专门学“怎么回答医学问题”，让它从“啥都懂点”变成“某领域专家”。
RLHF：Reinforcement Learning from Human Feedback（从人类反馈中强化学习），通过人类对模型输出的评价优化模型，使其更符合人类需求。
让人类当“评委”，模型回答后，人打分说“这个回答友好”“那个太啰嗦”，模型根据打分改进步调，越来越懂人的喜好。
参数量（Parameters）：LLM中可学习的参数总数，是衡量模型规模的核心指标（如百亿、千亿参数）。
模型的“脑细胞数量”，参数量越大，相当于“脑子”越复杂，能记住和处理的信息越多（但不是绝对越大越好）。
Epoch：模型完整遍历一次训练数据集的过程，LLM训练通常需要多轮epoch。
模型“刷题”的轮次，比如把1000道题从头到尾做一遍叫1个epoch，多做几轮能记得更牢。
批处理（Batch）：将训练数据分成小批次输入模型，平衡计算效率与内存消耗。
模型“吃饭”不是一口吞，而是分小碗吃，一次吃100条数据（一批），既不会撑着（内存不够），又能快点吃饱（提高效率）。
学习率（Learning Rate）：梯度下降中参数更新的步长，影响LLM训练的收敛速度和稳定性。
模型“学习的步幅”，步子太大容易走过头（学错），步子太小学得慢，需要调个合适的大小。
损失函数（Loss Function）：衡量LLM预测与真实结果的差异，训练目标是最小化损失。
模型的“错题本”，计算“预测的答案”和“正确答案”差多少，差得越多，就越要改，直到差得最少。
无监督学习（Unsupervised Learning）：LLM预训练的主要方式，无需标注数据，从文本中自主学习语言模式。
模型“自学”，没人告诉它“这是对的，那是错的”，自己从一堆文本里总结规律，比如发现“太阳从东边升起”经常一起出现。
数据增强（Data Augmentation）：对文本进行同义词替换、句式变换等，扩充训练数据，提升LLM泛化能力。
给模型“换种方式刷题”，比如把“我很高兴”改成“我非常开心”，让它见过更多表达，以后遇到新句子也能懂。
SFT（Supervised Fine-Tuning）：监督微调，用人工标注的高质量数据微调LLM，使其输出更符合任务需求（如指令遵循）。
有人“手把手教”，给模型看“问题+标准答案”，比如“问‘你好’应该答‘你好呀’”，让它学会按规矩做事。
Scaling Law：缩放定律，描述LLM性能随参数量、数据集大小、计算量增加而按幂律提升的规律，是大模型“越大越强”的理论基础。
“越大越聪明”的规律，只要模型参数够多、训练数据够大、电脑够强，性能就会按一定规律变好（但不是无限的）。
Self-Supervised Learning：自监督学习，LLM预训练的核心方式（如预测下一个词、掩码恢复），无需人工标注，从数据本身生成监督信号。
模型“自己考自己”，比如遮住句子里的一个词，让自己猜是什么，猜对了就巩固，猜错了就改，不用人出题。
Batch Size：批量大小，训练时一次迭代的样本数量，影响LLM训练效率和稳定性。
每次“刷题”的题量，一次做50道还是200道，题量合适才能学得又快又稳。

输入输出与交互

Prompt：用户输入的提示文本，用于引导LLM生成特定输出（如“写一篇关于AI的短文”）。
给模型的“指令”或“引子”，你说“帮我写个请假条”，这就是prompt，模型跟着这个提示做事。
Token：文本的最小处理单位（字、词或子词），LLM需先将文本拆分为Token再处理。
模型处理文本的“最小积木”，比如“苹果”可能是一个token，“葡萄”也是一个，长词可能拆成“葡”“萄”两个token。
上下文窗口（Context Window）：LLM能处理的最大Token长度，决定模型可理解的上下文范围（如4k、16k Token）。模型的“短期记忆长度”，比如窗口是4k token，就只能记住相当于3000个汉字的内容，超过了就会“忘”前面的。
嵌入（Embedding）：LLM将文本转换的低维向量，捕捉语义信息，是模型理解文本的基础。文本的“数字密码”，模型把“猫”转换成一串数字，“狗”转换成另一串，数字越像，说明意思越近（比如“猫”和“狗”的数字比“猫”和“桌子”的像）。

能力与特性

涌现能力（Emergent Abilities）：LLM参数量达到一定规模后，突然表现出的未被专门训练的能力（如逻辑推理、代码生成）。
模型“突然学会新技能”，比如没专门教它解数学题，但参数量够大后，自己就会算了，像小孩突然开窍一样。
生成式AI（Generative AI）：LLM的核心属性，能生成新的文本（如文章、对话、代码），而非仅做分类或预测。
模型会“创造”，不是只能判断“这是猫还是狗”，而是能写出“小猫追着蝴蝶跑”这种新句子。
少样本学习（Few-shot Learning）：LLM在少量示例提示下快速适应新任务的能力（如给1-2个例子就会写诗）。
“一点就通”，比如你给它看一句“床前明月光，疑是地上霜”，说“像这样写一句”，它就能仿写出类似的诗。
零样本学习（Zero-shot Learning）：LLM在无示例的情况下，仅通过自然语言指令完成新任务的能力。
“无师自通”，你说“用文言文介绍自己”，不用给例子，它直接就能写出来。

评估与优化

困惑度（Perplexity, PPL）：衡量LLM语言建模能力的指标，值越低表示模型对文本的预测越准确。
模型“看不懂的程度”，PPL低说明模型读文本时“心里有数”，知道下一个词大概率是什么；高就说明它“很迷茫”。
对齐（Alignment）：使LLM的输出与人类价值观、需求一致，避免有害或偏离预期的内容。
让模型“三观正”，符合人的想法，比如你问“怎么害人”，它不会教你，而是说“这样不对”。
量化（Quantization）：降低LLM参数精度（如32位→8位），减少计算资源消耗，加速推理。
给模型“减肥”，把参数的精度降低（比如从精确到小数点后8位变成4位），虽然可能损失一点精度，但跑得更快，更省电脑内存。
剪枝（Pruning）：去除LLM中冗余的神经元或连接，简化模型同时保持核心能力。
给模型“剪枝”，删掉那些没用的“脑细胞”，让模型变简单，但还能保持主要功能，比如剪掉“专门处理古文生僻字”的部分，不影响日常对话。
Low-Rank Factorization：低秩分解，通过低维矩阵近似LLM的高维权重矩阵，减少参数量和计算量。
给模型的“复杂关系”找简化版，比如原来用100x100的表格记录词的关系，现在用10x10的表格近似，既省空间又不影响主要判断。

其他

偏见（Bias）：LLM从训练数据中学习到的不公平倾向，可能导致对特定群体的歧视性输出。
模型“戴有色眼镜”，比如训练数据里有很多“女性不适合编程”的内容，模型可能就会说出“女生学不好代码”这种偏见话。
可解释性（Interpretability）：解释LLM生成结果的逻辑和依据，是提升LLM可信度的关键。
让模型“说清楚为什么这么回答”，比如它说“这道题选A”，能解释“因为步骤1、步骤2推出A正确”，而不是“凭感觉”。
鲁棒性（Robustness）：LLM面对噪声或恶意输入时，保持稳定输出的能力。
模型“抗干扰能力”，比如你故意打错字“怎摸去北京？”，它还能看懂是“怎么去北京”；或者遇到挑衅的话，也不会乱发脾气。
Generalization：泛化能力，LLM在未见过的新数据上的表现，是衡量其通用性的关键。
模型“举一反三的能力”，比如学过“猫有四条腿”，没学过“老虎有四条腿”，但能猜到“老虎也有四条腿”。
Ethics and Bias：伦理与偏见，LLM训练和应用中可能存在的性别、种族等偏见问题，及对应的伦理规范。
模型的“道德底线”，研究怎么避免模型产生歧视，比如不允许它因为种族、性别区别对待人，遵循公平、尊重的原则。
Transparency：透明度，LLM决策过程的可解释性，即能否说明输出结果的生成逻辑。
模型“不藏着掖着”，比如它拒绝回答某个问题，会说明“因为这个问题涉及危险内容”，而不是“莫名其妙不回答”。