当前位置: 首页 > news >正文

LLM常见名词记录

核心模型与架构

  • LLM:Large Language Model(大语言模型),专指处理自然语言的大规模预训练模型。
    就是能理解和生成人类语言的巨型AI模型,像ChatGPT、文心一言这些都属于LLM,肚子里装了海量文本知识。
  • Transformer:基于自注意力机制的神经网络架构,是几乎所有现代LLM的基础框架。论文链接:https://arxiv.org/abs/1706.03762
    LLM的“骨架”,就像盖房子的钢筋结构,所有大模型基本都靠它来搭建,能让模型更好地理解文本里的关系。
  • BERT:Bidirectional Encoder Representations from Transformers(基于Transformer的双向编码器表示),双向预训练语言模型,擅长理解上下文。论文链接:https://arxiv.org/abs/1810.04805
    一个“阅读理解高手”,读句子时会同时看左边和右边的词,比如理解“他打了球”,会结合前后文判断“打”是“打球”还是“打人”。
  • GPT:Generative Pretrained Transformer(生成式预训练Transformer),生成式语言模型,擅长文本生成。
    一个“写作高手”,能顺着前文往下编内容,比如你说“今天天气很好”,它能接“适合去公园散步”。
  • Encoder(编码器):Transformer组件,将输入文本转换为含上下文的特征表示,是BERT等模型的核心。
    负责“读懂”输入的文本,把文字变成模型能理解的“内部密码”,比如把“猫吃鱼”转换成包含“猫”和“鱼”关系的代码。
  • Decoder(解码器):Transformer组件,基于编码器输出生成目标文本,是GPT等生成式模型的核心。
    负责“写出”输出的文本,根据编码器给的“内部密码”,生成人类能看懂的句子,比如把“猫和鱼的关系”密码转成“猫喜欢吃鱼”。
  • 自注意力机制(Self-Attention Mechanism):Transformer的核心,使模型能关注输入文本中不同位置的关联,理解上下文。
    模型的“注意力”,读句子时会自动判断哪个词和哪个词关系近,比如“小明买了苹果,他很喜欢吃它”,能知道“它”指“苹果”。
  • 注意力头(Attention Head):自注意力机制的子空间,多个注意力头并行捕捉不同特征,增强模型理解能力。
    就像人有多个“视角”,一个注意力头可能关注词的位置,另一个关注词的感情,多个视角合起来理解更全面。
  • Multi-Head Attention:多头注意力,Transformer中拆分注意力机制为多个“头”,分别学习不同特征,提升LLM表现力。
    让模型同时用多个“注意力头”看文本,比如一边看句子结构,一边看词的意思,最后把结果综合起来,理解更透彻。
  • Positional Encoding:位置编码,为Transformer提供序列位置信息(因模型本身无顺序记忆),是LLM处理文本顺序的基础。
    给每个词贴个“位置标签”,告诉模型“这个词在句子的第3位,那个在第5位”,不然模型分不清“我打他”和“他打我”的区别。
  • Encoder-Decoder Architecture:编码器-解码器架构,LLM中用于序列到序列任务(如翻译、生成)的经典结构,编码器处理输入,解码器生成输出。
    就像“翻译机”的工作流程,编码器先“听懂”中文,解码器再“说出”英文,输入和输出是不同的序列。
  • MoE(Mixture of Experts):混合专家模型,通过多个“专家”网络并行处理输入,门控机制选择最优输出,是大规模LLM提升效率的重要架构(如GPT-4部分采用)。
    模型里有多个“专家”,有的擅长写诗,有的擅长算数学,你提问时,“门控”会挑出最适合的专家来回答,既高效又准确。

训练与优化

  • 预训练(Pretraining):LLM在大规模通用文本(如书籍、网页)上的初始训练,学习语言规律和通用知识。
    模型的“小学阶段”,疯狂读各种书、网页,学认字、学语法、记常识,比如知道“地球是圆的”“水会结冰”。
  • 微调(Fine-tuning):在预训练模型基础上,用特定任务数据(如问答、翻译)进一步训练,适配具体场景。
    模型的“职业培训”,比如预训练后再专门学“怎么回答医学问题”,让它从“啥都懂点”变成“某领域专家”。
  • RLHF:Reinforcement Learning from Human Feedback(从人类反馈中强化学习),通过人类对模型输出的评价优化模型,使其更符合人类需求。
    让人类当“评委”,模型回答后,人打分说“这个回答友好”“那个太啰嗦”,模型根据打分改进步调,越来越懂人的喜好。
  • 参数量(Parameters):LLM中可学习的参数总数,是衡量模型规模的核心指标(如百亿、千亿参数)。
    模型的“脑细胞数量”,参数量越大,相当于“脑子”越复杂,能记住和处理的信息越多(但不是绝对越大越好)。
  • Epoch:模型完整遍历一次训练数据集的过程,LLM训练通常需要多轮epoch。
    模型“刷题”的轮次,比如把1000道题从头到尾做一遍叫1个epoch,多做几轮能记得更牢。
  • 批处理(Batch):将训练数据分成小批次输入模型,平衡计算效率与内存消耗。
    模型“吃饭”不是一口吞,而是分小碗吃,一次吃100条数据(一批),既不会撑着(内存不够),又能快点吃饱(提高效率)。
  • 学习率(Learning Rate):梯度下降中参数更新的步长,影响LLM训练的收敛速度和稳定性。
    模型“学习的步幅”,步子太大容易走过头(学错),步子太小学得慢,需要调个合适的大小。
  • 损失函数(Loss Function):衡量LLM预测与真实结果的差异,训练目标是最小化损失。
    模型的“错题本”,计算“预测的答案”和“正确答案”差多少,差得越多,就越要改,直到差得最少。
  • 无监督学习(Unsupervised Learning):LLM预训练的主要方式,无需标注数据,从文本中自主学习语言模式。
    模型“自学”,没人告诉它“这是对的,那是错的”,自己从一堆文本里总结规律,比如发现“太阳从东边升起”经常一起出现。
  • 数据增强(Data Augmentation):对文本进行同义词替换、句式变换等,扩充训练数据,提升LLM泛化能力。
    给模型“换种方式刷题”,比如把“我很高兴”改成“我非常开心”,让它见过更多表达,以后遇到新句子也能懂。
  • SFT(Supervised Fine-Tuning):监督微调,用人工标注的高质量数据微调LLM,使其输出更符合任务需求(如指令遵循)。
    有人“手把手教”,给模型看“问题+标准答案”,比如“问‘你好’应该答‘你好呀’”,让它学会按规矩做事。
  • Scaling Law:缩放定律,描述LLM性能随参数量、数据集大小、计算量增加而按幂律提升的规律,是大模型“越大越强”的理论基础。
    “越大越聪明”的规律,只要模型参数够多、训练数据够大、电脑够强,性能就会按一定规律变好(但不是无限的)。
  • Self-Supervised Learning:自监督学习,LLM预训练的核心方式(如预测下一个词、掩码恢复),无需人工标注,从数据本身生成监督信号。
    模型“自己考自己”,比如遮住句子里的一个词,让自己猜是什么,猜对了就巩固,猜错了就改,不用人出题。
  • Batch Size:批量大小,训练时一次迭代的样本数量,影响LLM训练效率和稳定性。
    每次“刷题”的题量,一次做50道还是200道,题量合适才能学得又快又稳。

输入输出与交互

  • Prompt:用户输入的提示文本,用于引导LLM生成特定输出(如“写一篇关于AI的短文”)。
    给模型的“指令”或“引子”,你说“帮我写个请假条”,这就是prompt,模型跟着这个提示做事。
  • Token:文本的最小处理单位(字、词或子词),LLM需先将文本拆分为Token再处理。
    模型处理文本的“最小积木”,比如“苹果”可能是一个token,“葡萄”也是一个,长词可能拆成“葡”“萄”两个token。
  • 上下文窗口(Context Window):LLM能处理的最大Token长度,决定模型可理解的上下文范围(如4k、16k Token)。 模型的“短期记忆长度”,比如窗口是4k token,就只能记住相当于3000个汉字的内容,超过了就会“忘”前面的。
  • 嵌入(Embedding):LLM将文本转换的低维向量,捕捉语义信息,是模型理解文本的基础。 文本的“数字密码”,模型把“猫”转换成一串数字,“狗”转换成另一串,数字越像,说明意思越近(比如“猫”和“狗”的数字比“猫”和“桌子”的像)。

能力与特性

  • 涌现能力(Emergent Abilities):LLM参数量达到一定规模后,突然表现出的未被专门训练的能力(如逻辑推理、代码生成)。
    模型“突然学会新技能”,比如没专门教它解数学题,但参数量够大后,自己就会算了,像小孩突然开窍一样。
  • 生成式AI(Generative AI):LLM的核心属性,能生成新的文本(如文章、对话、代码),而非仅做分类或预测。
    模型会“创造”,不是只能判断“这是猫还是狗”,而是能写出“小猫追着蝴蝶跑”这种新句子。
  • 少样本学习(Few-shot Learning):LLM在少量示例提示下快速适应新任务的能力(如给1-2个例子就会写诗)。
    “一点就通”,比如你给它看一句“床前明月光,疑是地上霜”,说“像这样写一句”,它就能仿写出类似的诗。
  • 零样本学习(Zero-shot Learning):LLM在无示例的情况下,仅通过自然语言指令完成新任务的能力。
    “无师自通”,你说“用文言文介绍自己”,不用给例子,它直接就能写出来。

评估与优化

  • 困惑度(Perplexity, PPL):衡量LLM语言建模能力的指标,值越低表示模型对文本的预测越准确。
    模型“看不懂的程度”,PPL低说明模型读文本时“心里有数”,知道下一个词大概率是什么;高就说明它“很迷茫”。
  • 对齐(Alignment):使LLM的输出与人类价值观、需求一致,避免有害或偏离预期的内容。
    让模型“三观正”,符合人的想法,比如你问“怎么害人”,它不会教你,而是说“这样不对”。
  • 量化(Quantization):降低LLM参数精度(如32位→8位),减少计算资源消耗,加速推理。
    给模型“减肥”,把参数的精度降低(比如从精确到小数点后8位变成4位),虽然可能损失一点精度,但跑得更快,更省电脑内存。
  • 剪枝(Pruning):去除LLM中冗余的神经元或连接,简化模型同时保持核心能力。
    给模型“剪枝”,删掉那些没用的“脑细胞”,让模型变简单,但还能保持主要功能,比如剪掉“专门处理古文生僻字”的部分,不影响日常对话。
  • Low-Rank Factorization:低秩分解,通过低维矩阵近似LLM的高维权重矩阵,减少参数量和计算量。
    给模型的“复杂关系”找简化版,比如原来用100x100的表格记录词的关系,现在用10x10的表格近似,既省空间又不影响主要判断。

其他

  • 偏见(Bias):LLM从训练数据中学习到的不公平倾向,可能导致对特定群体的歧视性输出。
    模型“戴有色眼镜”,比如训练数据里有很多“女性不适合编程”的内容,模型可能就会说出“女生学不好代码”这种偏见话。
  • 可解释性(Interpretability):解释LLM生成结果的逻辑和依据,是提升LLM可信度的关键。
    让模型“说清楚为什么这么回答”,比如它说“这道题选A”,能解释“因为步骤1、步骤2推出A正确”,而不是“凭感觉”。
  • 鲁棒性(Robustness):LLM面对噪声或恶意输入时,保持稳定输出的能力。
    模型“抗干扰能力”,比如你故意打错字“怎摸去北京?”,它还能看懂是“怎么去北京”;或者遇到挑衅的话,也不会乱发脾气。
  • Generalization:泛化能力,LLM在未见过的新数据上的表现,是衡量其通用性的关键。
    模型“举一反三的能力”,比如学过“猫有四条腿”,没学过“老虎有四条腿”,但能猜到“老虎也有四条腿”。
  • Ethics and Bias:伦理与偏见,LLM训练和应用中可能存在的性别、种族等偏见问题,及对应的伦理规范。
    模型的“道德底线”,研究怎么避免模型产生歧视,比如不允许它因为种族、性别区别对待人,遵循公平、尊重的原则。
  • Transparency:透明度,LLM决策过程的可解释性,即能否说明输出结果的生成逻辑。
    模型“不藏着掖着”,比如它拒绝回答某个问题,会说明“因为这个问题涉及危险内容”,而不是“莫名其妙不回答”。
http://www.dtcms.com/a/340676.html

相关文章:

  • 《高中数学教与学》期刊简介
  • 109、【OS】【Nuttx】【周边】效果呈现方案解析:workspaceStorage(下)
  • Pytest项目_day20(log日志)
  • Redis--day9--黑马点评--分布式锁(二)
  • 基于门控循环单元的数据回归预测 GRU
  • 【ansible】3.管理变量和事实
  • 拆分工作表到工作簿文件,同时保留其他工作表-Excel易用宝
  • NAS在初中信息科技实验中的应用--以《义务教育信息科技教学指南》第七年级内容为例
  • AI面试:一场职场生态的数字化重构实验
  • 如何使用matlab将目录下不同的excel表合并成一个表
  • Kafka如何保证「消息不丢失」,「顺序传输」,「不重复消费」,以及为什么会发送重平衡(reblanace)
  • 稳压管损坏导致无脉冲输出电路分析
  • 【Linux仓库】进程等待【进程·捌】
  • week3-[分支嵌套]方阵
  • React15.x版本 子组件调用父组件的方法,从props中拿的,这个方法里面有个setState,结果调用报错
  • setup 函数总结
  • 买卖股票的最佳时机III
  • C++STL-list 底层实现
  • Adobe Adobe Illustrator Ai 2025最新版软件安装包下载与详细图文安装教程!!
  • 代码随想录Day57:图论(寻宝prim算法精讲kruskal算法精讲)
  • 【自动化运维神器Ansible】Roles中Tags使用详解:提升自动化效率的利器
  • STM32 外设驱动模块五:DHT11 温湿度传感器
  • 【Express零基础入门】 | 构建简易后端服务的核心知识
  • 如何查看和修改网络接口参数?
  • 计算机网络模型
  • 2025年Java后端最新场景题+八股文面试题
  • 田野科技“一张皮”,“AI+虚拟仿真”推动考古教学创新发展
  • 晨控EtherCAT设备分配IP操作手册
  • 详细的Git的安装教程
  • 运用平均值填充后的数据进行模型预测