核心模型与架构
- LLM:Large Language Model(大语言模型),专指处理自然语言的大规模预训练模型。
就是能理解和生成人类语言的巨型AI模型,像ChatGPT、文心一言这些都属于LLM,肚子里装了海量文本知识。 - Transformer:基于自注意力机制的神经网络架构,是几乎所有现代LLM的基础框架。论文链接:https://arxiv.org/abs/1706.03762
LLM的“骨架”,就像盖房子的钢筋结构,所有大模型基本都靠它来搭建,能让模型更好地理解文本里的关系。 - BERT:Bidirectional Encoder Representations from Transformers(基于Transformer的双向编码器表示),双向预训练语言模型,擅长理解上下文。论文链接:https://arxiv.org/abs/1810.04805
一个“阅读理解高手”,读句子时会同时看左边和右边的词,比如理解“他打了球”,会结合前后文判断“打”是“打球”还是“打人”。 - GPT:Generative Pretrained Transformer(生成式预训练Transformer),生成式语言模型,擅长文本生成。
一个“写作高手”,能顺着前文往下编内容,比如你说“今天天气很好”,它能接“适合去公园散步”。 - Encoder(编码器):Transformer组件,将输入文本转换为含上下文的特征表示,是BERT等模型的核心。
负责“读懂”输入的文本,把文字变成模型能理解的“内部密码”,比如把“猫吃鱼”转换成包含“猫”和“鱼”关系的代码。 - Decoder(解码器):Transformer组件,基于编码器输出生成目标文本,是GPT等生成式模型的核心。
负责“写出”输出的文本,根据编码器给的“内部密码”,生成人类能看懂的句子,比如把“猫和鱼的关系”密码转成“猫喜欢吃鱼”。 - 自注意力机制(Self-Attention Mechanism):Transformer的核心,使模型能关注输入文本中不同位置的关联,理解上下文。
模型的“注意力”,读句子时会自动判断哪个词和哪个词关系近,比如“小明买了苹果,他很喜欢吃它”,能知道“它”指“苹果”。 - 注意力头(Attention Head):自注意力机制的子空间,多个注意力头并行捕捉不同特征,增强模型理解能力。
就像人有多个“视角”,一个注意力头可能关注词的位置,另一个关注词的感情,多个视角合起来理解更全面。 - Multi-Head Attention:多头注意力,Transformer中拆分注意力机制为多个“头”,分别学习不同特征,提升LLM表现力。
让模型同时用多个“注意力头”看文本,比如一边看句子结构,一边看词的意思,最后把结果综合起来,理解更透彻。 - Positional Encoding:位置编码,为Transformer提供序列位置信息(因模型本身无顺序记忆),是LLM处理文本顺序的基础。
给每个词贴个“位置标签”,告诉模型“这个词在句子的第3位,那个在第5位”,不然模型分不清“我打他”和“他打我”的区别。 - Encoder-Decoder Architecture:编码器-解码器架构,LLM中用于序列到序列任务(如翻译、生成)的经典结构,编码器处理输入,解码器生成输出。
就像“翻译机”的工作流程,编码器先“听懂”中文,解码器再“说出”英文,输入和输出是不同的序列。 - MoE(Mixture of Experts):混合专家模型,通过多个“专家”网络并行处理输入,门控机制选择最优输出,是大规模LLM提升效率的重要架构(如GPT-4部分采用)。
模型里有多个“专家”,有的擅长写诗,有的擅长算数学,你提问时,“门控”会挑出最适合的专家来回答,既高效又准确。
训练与优化
- 预训练(Pretraining):LLM在大规模通用文本(如书籍、网页)上的初始训练,学习语言规律和通用知识。
模型的“小学阶段”,疯狂读各种书、网页,学认字、学语法、记常识,比如知道“地球是圆的”“水会结冰”。 - 微调(Fine-tuning):在预训练模型基础上,用特定任务数据(如问答、翻译)进一步训练,适配具体场景。
模型的“职业培训”,比如预训练后再专门学“怎么回答医学问题”,让它从“啥都懂点”变成“某领域专家”。 - RLHF:Reinforcement Learning from Human Feedback(从人类反馈中强化学习),通过人类对模型输出的评价优化模型,使其更符合人类需求。
让人类当“评委”,模型回答后,人打分说“这个回答友好”“那个太啰嗦”,模型根据打分改进步调,越来越懂人的喜好。 - 参数量(Parameters):LLM中可学习的参数总数,是衡量模型规模的核心指标(如百亿、千亿参数)。
模型的“脑细胞数量”,参数量越大,相当于“脑子”越复杂,能记住和处理的信息越多(但不是绝对越大越好)。 - Epoch:模型完整遍历一次训练数据集的过程,LLM训练通常需要多轮epoch。
模型“刷题”的轮次,比如把1000道题从头到尾做一遍叫1个epoch,多做几轮能记得更牢。 - 批处理(Batch):将训练数据分成小批次输入模型,平衡计算效率与内存消耗。
模型“吃饭”不是一口吞,而是分小碗吃,一次吃100条数据(一批),既不会撑着(内存不够),又能快点吃饱(提高效率)。 - 学习率(Learning Rate):梯度下降中参数更新的步长,影响LLM训练的收敛速度和稳定性。
模型“学习的步幅”,步子太大容易走过头(学错),步子太小学得慢,需要调个合适的大小。 - 损失函数(Loss Function):衡量LLM预测与真实结果的差异,训练目标是最小化损失。
模型的“错题本”,计算“预测的答案”和“正确答案”差多少,差得越多,就越要改,直到差得最少。 - 无监督学习(Unsupervised Learning):LLM预训练的主要方式,无需标注数据,从文本中自主学习语言模式。
模型“自学”,没人告诉它“这是对的,那是错的”,自己从一堆文本里总结规律,比如发现“太阳从东边升起”经常一起出现。 - 数据增强(Data Augmentation):对文本进行同义词替换、句式变换等,扩充训练数据,提升LLM泛化能力。
给模型“换种方式刷题”,比如把“我很高兴”改成“我非常开心”,让它见过更多表达,以后遇到新句子也能懂。 - SFT(Supervised Fine-Tuning):监督微调,用人工标注的高质量数据微调LLM,使其输出更符合任务需求(如指令遵循)。
有人“手把手教”,给模型看“问题+标准答案”,比如“问‘你好’应该答‘你好呀’”,让它学会按规矩做事。 - Scaling Law:缩放定律,描述LLM性能随参数量、数据集大小、计算量增加而按幂律提升的规律,是大模型“越大越强”的理论基础。
“越大越聪明”的规律,只要模型参数够多、训练数据够大、电脑够强,性能就会按一定规律变好(但不是无限的)。 - Self-Supervised Learning:自监督学习,LLM预训练的核心方式(如预测下一个词、掩码恢复),无需人工标注,从数据本身生成监督信号。
模型“自己考自己”,比如遮住句子里的一个词,让自己猜是什么,猜对了就巩固,猜错了就改,不用人出题。 - Batch Size:批量大小,训练时一次迭代的样本数量,影响LLM训练效率和稳定性。
每次“刷题”的题量,一次做50道还是200道,题量合适才能学得又快又稳。
输入输出与交互
- Prompt:用户输入的提示文本,用于引导LLM生成特定输出(如“写一篇关于AI的短文”)。
给模型的“指令”或“引子”,你说“帮我写个请假条”,这就是prompt,模型跟着这个提示做事。 - Token:文本的最小处理单位(字、词或子词),LLM需先将文本拆分为Token再处理。
模型处理文本的“最小积木”,比如“苹果”可能是一个token,“葡萄”也是一个,长词可能拆成“葡”“萄”两个token。 - 上下文窗口(Context Window):LLM能处理的最大Token长度,决定模型可理解的上下文范围(如4k、16k Token)。 模型的“短期记忆长度”,比如窗口是4k token,就只能记住相当于3000个汉字的内容,超过了就会“忘”前面的。
- 嵌入(Embedding):LLM将文本转换的低维向量,捕捉语义信息,是模型理解文本的基础。 文本的“数字密码”,模型把“猫”转换成一串数字,“狗”转换成另一串,数字越像,说明意思越近(比如“猫”和“狗”的数字比“猫”和“桌子”的像)。
能力与特性
- 涌现能力(Emergent Abilities):LLM参数量达到一定规模后,突然表现出的未被专门训练的能力(如逻辑推理、代码生成)。
模型“突然学会新技能”,比如没专门教它解数学题,但参数量够大后,自己就会算了,像小孩突然开窍一样。 - 生成式AI(Generative AI):LLM的核心属性,能生成新的文本(如文章、对话、代码),而非仅做分类或预测。
模型会“创造”,不是只能判断“这是猫还是狗”,而是能写出“小猫追着蝴蝶跑”这种新句子。 - 少样本学习(Few-shot Learning):LLM在少量示例提示下快速适应新任务的能力(如给1-2个例子就会写诗)。
“一点就通”,比如你给它看一句“床前明月光,疑是地上霜”,说“像这样写一句”,它就能仿写出类似的诗。 - 零样本学习(Zero-shot Learning):LLM在无示例的情况下,仅通过自然语言指令完成新任务的能力。
“无师自通”,你说“用文言文介绍自己”,不用给例子,它直接就能写出来。
评估与优化
- 困惑度(Perplexity, PPL):衡量LLM语言建模能力的指标,值越低表示模型对文本的预测越准确。
模型“看不懂的程度”,PPL低说明模型读文本时“心里有数”,知道下一个词大概率是什么;高就说明它“很迷茫”。 - 对齐(Alignment):使LLM的输出与人类价值观、需求一致,避免有害或偏离预期的内容。
让模型“三观正”,符合人的想法,比如你问“怎么害人”,它不会教你,而是说“这样不对”。 - 量化(Quantization):降低LLM参数精度(如32位→8位),减少计算资源消耗,加速推理。
给模型“减肥”,把参数的精度降低(比如从精确到小数点后8位变成4位),虽然可能损失一点精度,但跑得更快,更省电脑内存。 - 剪枝(Pruning):去除LLM中冗余的神经元或连接,简化模型同时保持核心能力。
给模型“剪枝”,删掉那些没用的“脑细胞”,让模型变简单,但还能保持主要功能,比如剪掉“专门处理古文生僻字”的部分,不影响日常对话。 - Low-Rank Factorization:低秩分解,通过低维矩阵近似LLM的高维权重矩阵,减少参数量和计算量。
给模型的“复杂关系”找简化版,比如原来用100x100的表格记录词的关系,现在用10x10的表格近似,既省空间又不影响主要判断。
其他
- 偏见(Bias):LLM从训练数据中学习到的不公平倾向,可能导致对特定群体的歧视性输出。
模型“戴有色眼镜”,比如训练数据里有很多“女性不适合编程”的内容,模型可能就会说出“女生学不好代码”这种偏见话。 - 可解释性(Interpretability):解释LLM生成结果的逻辑和依据,是提升LLM可信度的关键。
让模型“说清楚为什么这么回答”,比如它说“这道题选A”,能解释“因为步骤1、步骤2推出A正确”,而不是“凭感觉”。 - 鲁棒性(Robustness):LLM面对噪声或恶意输入时,保持稳定输出的能力。
模型“抗干扰能力”,比如你故意打错字“怎摸去北京?”,它还能看懂是“怎么去北京”;或者遇到挑衅的话,也不会乱发脾气。 - Generalization:泛化能力,LLM在未见过的新数据上的表现,是衡量其通用性的关键。
模型“举一反三的能力”,比如学过“猫有四条腿”,没学过“老虎有四条腿”,但能猜到“老虎也有四条腿”。 - Ethics and Bias:伦理与偏见,LLM训练和应用中可能存在的性别、种族等偏见问题,及对应的伦理规范。
模型的“道德底线”,研究怎么避免模型产生歧视,比如不允许它因为种族、性别区别对待人,遵循公平、尊重的原则。 - Transparency:透明度,LLM决策过程的可解释性,即能否说明输出结果的生成逻辑。
模型“不藏着掖着”,比如它拒绝回答某个问题,会说明“因为这个问题涉及危险内容”,而不是“莫名其妙不回答”。