算法面经常考题整理(3)大模型
一、Llama
Llama 是 Meta 公司推出的一系列人工智能语言模型。以下是关于它的详细介绍:
- 发展历程:2023 年 2 月,Meta 正式推出 Llama 初代模型,包含 7B、13B、33B 和 65B 参数版本。2023 年 7 月,Meta 发布 Llama 2,参数规模扩展至 700 亿,训练数据量翻倍至 2 万亿 token,新增指令对齐与强化学习技术,首次支持商业用途。2024 年 4 月,Llama 3 发布,参数规模跨越至 4050 亿,训练效率提升三倍。2024 年 7 月,Llama 3.1 登场,在 13 项基准测试中 11 项超越 GPT-4o。
- 模型架构:Llama 基于 Transformer 的 decoder - only 架构,核心组件包括多个 Transformer 块,每层包含多头自注意力机制和前馈神经网络。Llama 2 使用 RMSNorm 替代 LayerNorm 以提升稳定性,并采用 SwiGLU 激活函数增强非线性能力,还引入了分组查询注意力的变体以减少计算开销。Llama 3 则选择了标准的仅解码式 Transformer 架构,采用包含 128K token 词汇表的分词器。
- 性能特点:Llama 具有多语言无缝交互能力,原生支持 8 种语言理解与生成,可扩展至 30 + 语种。其上下文窗口处理能力不断提升,Llama 3.1 可扩展至 128K。在数学推理与代码生成方面,Llama 3.1 达到顶尖闭源模型水平。
- 应用场景:Llama 支持文本生成、代码编写、图像解析等跨领域任务,可应用于自然语言处理、对话系统、信息检索、机器翻译等多个领域。
在面试中,关于 Llama 的常考题主要有以下几类:
- 模型架构相关
- Llama 采用了什么架构?Llama 基于 Transformer 的 decoder - only 架构,这种架构有什么优势?:Llama 采用 Transformer 的 decoder - only 架构。其优势在于,自注意力机制能有效捕捉词与词之间的长距离依赖关系,还支持并行计算,可极大提高模型的计算效率。此外,该架构采用自回归生成方式,生成的内容具有强上下文依赖性,能确保输出的连贯性和语义合理性。
- Llama 2 的网络架构是怎样的?使用了哪些注意力机制?:Llama 2 的网络架构基于 Transformer,使用了分组查询注意力的变体,以减少计算开销。同时,它还使用 RMSNorm 替代 LayerNorm 以提升稳定性,并采用 SwiGLU 激活函数增强非线性能力。
- Llama 2 的位置编码是什么?讲讲几种位置编码的异同。:Llama 2 使用的是旋转位置嵌入(RoPE)。常见的位置编码还有绝对位置编码和相对位置编码。绝对位置编码为每个位置分配一个固定的向量表示,相对位置编码则是根据词与词之间的相对位置关系来计算位置向量。RoPE 则是通过旋转操作将位置信息融入到词向量中,它能够在不增加模型参数的情况下,有效地捕捉长距离的位置信息。
- 训练相关
- Llama 3 训练如何保证数据质量?:Llama 3 通过多种方式保证数据质量。在训练数据清洗阶段,进行安全性过滤,排除包含个人信息、有害内容和成人内容的文本;使用 HTML 解析器提取文本、代码和数学公式,同时去除 markdown 标签;通过 URL 去重、Document - level 去重、Line - level 去重、启发式去重等方式去除重复内容;还使用多种模型评估文档质量,如 Llama2 - chat 和 DistilledRobera。在不同来源训练数据配比方面,约 50% 的 token 与通用知识相关,25% 的数学和推理数据,17% 的代码数据,8% 的多语言数据。在后训练数据质量控制阶段,使用启发式规则清洗频繁出现的脏数据,如 emoji 符号、感叹号和道歉前缀等;使用 Llama3 8B 微调的主题分类器对数据进行二级主题分类;使用奖励模型和 Llama - prompt 对样本进行质量打分;设计 Llama3 70B 的 prompt,抽取 SFT 数据中的意图,根据意图数量判断问题复杂度;使用 Roberta 对样本聚类,根据质量分和复杂度排序,过滤高度相似的样本。
- Llama 的训练数据来源有哪些?如何进行数据处理?:Llama 的训练数据来源广泛,包括网页文本、书籍、论文等。在数据处理方面,会进行清洗、去重、分类等操作。例如,Llama 3 会对训练数据进行安全性过滤、文本清洗、去重等操作,还会使用基于 fasttext 的语言分类模型将所有数据分类成 176 种语言,在每种语言内部执行 document - level 和 line - level 去重,使用每种语言专门的模型和启发式规则过滤低质量样本。
- Llama 2 的训练数据量是 2 万亿 token,Llama 3 的训练数据量是 15 万亿 token,这么大规模的数据训练过程中遇到了哪些挑战?是如何解决的?:大规模数据训练的挑战包括计算资源需求大、训练效率低、数据质量控制难等。Llama 3 通过 LlamaRL 框架来解决这些问题。LlamaRL 采用完全基于原生 PyTorch 的简化单控制器架构,可无缝扩展到数千个 GPU,支持高效训练大规模 LLM;通过协同定位模型卸载,将生成过程从训练集群完全卸载,可进行细粒度并行和量化优化,显著降低计算和内存需求;采用异步离线策略 RL,训练和生成过程异步并行运行,大幅提高吞吐量和资源利用率,引入 AIPO 算法有效缓解大规模训练中的训练不稳定性;开发全分布式、GPU 原生的同步方法,利用 NVLink 实现 GPU 到 GPU 的零拷贝传输,实现数万亿级模型在数千 GPU 上约 2 秒的权重更新,且呈线性可扩展性。
- 性能优化相关
- 如何对 Llama 模型进行性能优化?比如量化、剪枝等技术在 Llama 上的应用。:可以使用量化技术对 Llama 模型进行性能优化,如 Llama 2 支持 INT4/INT8 量化,通过将模型参数和激活值用更低精度的数值表示,可减少模型的存储空间和计算量,同时保持一定的性能。剪枝技术也可以应用于 Llama 模型,通过去除不重要的连接或参数,来降低模型的复杂度,提高推理速度。此外,还可以通过模型蒸馏、优化模型架构等方式来优化 Llama 模型的性能。
- Llama 2 支持 INT4/INT8 量化,量化技术对 Llama 模型的性能有什么影响?:量化技术可以减少 Llama 模型的存储空间和计算量,从而提高模型的推理速度和效率。例如,INT4/INT8 量化可以将模型的参数和激活值用 4 位或 8 位整数表示,相比 32 位浮点数,存储空间可以大大减少。在一些场景下,量化后的模型性能可能会有轻微下降,但通过合理的量化方法和参数调整,可以在保证一定性能的前提下,实现模型的轻量化和高效化。
- 应用相关
- Llama 在实际应用中遇到过哪些问题?比如模型幻觉、复读机问题等,是如何解决的?:Llama 在实际应用中可能会遇到模型幻觉(模型幻觉可以分为事实性幻觉和忠实性幻觉两类。事实性幻觉是指模型生成的内容与可验证的现实世界事实不一致,包括事实不一致和事实捏造。忠实性幻觉则是指模型生成的内容与用户的指令或上下文不一致,可细分为指令不一致、上下文不一致和逻辑不一致。)、复读机问题等。对于模型幻觉问题,可以通过优化训练数据、增加事实性知识的注入、使用强化学习等方法来解决。对于复读机问题,可以通过调整模型的生成策略、增加上下文的多样性等方式来改善。例如,在生成文本时,可以引入一些随机性,避免模型总是生成相同的内容。
- 如果你要将 Llama 应用于某个特定领域,比如医疗、金融,你会如何进行微调?:可以使用特定领域的数据对 Llama 进行微调。首先,收集和整理医疗或金融领域的专业数据,然后使用 LoRA(Low - Rank Adaptation)等技术对 Llama 进行微调。LoRA 可以通过训练少量新增参数,来调整预训练模型的参数,从而提升模型在特定领域的性能。例如,在医疗领域,可以使用医疗病历、医学文献等数据进行微调,让模型能够更好地理解和处理医疗相关的问题。
二、PEFT
PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一种针对大语言模型的微调技术,核心是通过仅训练模型中极小比例的新增或特定参数,而非全部参数,来实现模型在下游任务上的性能提升。
这种技术解决了传统全量微调的核心痛点:大模型(如千亿参数级)全量微调时,计算资源消耗极高、训练时间长且容易过拟合。PEFT 在大幅降低计算和存储成本的同时,能保留预训练模型的通用能力,并快速适配特定任务。
PEFT 的核心原理
PEFT 的本质是 “冻结预训练模型的大部分参数,仅对少量参数进行更新”。其核心逻辑基于 “预训练模型已学习到通用知识,下游任务只需微调模型中与任务相关的‘特定部分’即可”。通过这种方式,既能让模型适配新任务,又避免了破坏预训练阶段学到的通用特征。
常见的 PEFT 方法
不同 PEFT 方法的核心区别在于 “选择哪些参数进行训练”,以下是最主流的三种:
LoRA(Low-Rank Adaptation)
- 原理:在预训练模型的关键层(如 Transformer 的注意力层)中插入一对低秩矩阵(权重矩阵 A 和 B),训练时仅更新这两个小矩阵的参数,而冻结原模型的所有参数。
- 优势:参数增量极小(通常仅原模型的 0.1%-1%),训练速度快,多个任务的 LoRA 矩阵可灵活切换,实现 “一模型多任务”。
- 应用:目前最广泛的 PEFT 方法,被 Llama、GPT 等主流模型普遍采用。
Prefix Tuning(前缀微调)
- 原理:在输入序列的开头添加一段可训练的 “前缀参数”(Prefix Tokens),将其视为模型的 “任务提示”,训练时仅更新前缀参数,冻结原模型参数。
- 优势:完全不修改原模型结构,对生成类任务(如文本创作、对话)适配性较好。
- 不足:前缀长度需手动调整,对部分理解类任务的效果略逊于 LoRA。
Adapter Tuning(适配器微调)
- 原理:在 Transformer 的每一层(或部分层)中插入小型 “适配器模块”(通常是 bottleneck 结构的神经网络),训练时仅更新适配器的参数,原模型参数保持冻结。
- 优势:结构灵活,可根据任务需求调整适配器的位置和大小。
- 不足:参数增量略高于 LoRA,可能轻微增加模型的推理延迟。
PEFT 的核心优势
- 低资源消耗:无需存储和训练整个大模型,显存占用可降低 50%-90%,普通 GPU 也能完成微调。
- 泛化能力强:冻结的预训练参数保留了通用知识,新增参数仅适配特定任务,不易过拟合。
- 部署高效:多个任务的微调参数可独立存储,切换任务时无需加载多个完整模型,仅需替换 PEFT 部分的参数。
PEFT 的典型应用场景
- 垂直领域适配:将通用大模型(如 Llama 3)通过 PEFT 微调为医疗、金融、法律等领域的专用模型。
- 小样本学习:在下游任务数据量较少(如仅数百条样本)时,PEFT 能有效利用预训练知识,避免过拟合。
- 多任务部署:同一基础模型可通过加载不同的 PEFT 参数,同时处理翻译、摘要、问答等多个任务。
三、Prompt工程与前缀微调
Prompt 工程与前缀微调(Prefix Tuning)是大模型适配下游任务的两种重要技术,二者在理念和实现上既有关联又有显著差异,以下分别介绍:
一、Prompt 工程(Prompt Engineering)
Prompt 工程是通过设计输入文本(Prompt)的形式,引导大模型在不修改参数的情况下,更好地理解任务需求并输出符合预期的结果。核心是 “用自然语言指令或示例‘激活’模型的固有能力”,无需训练,属于 “零样本 / 少样本学习” 范畴。
核心原理
预训练大模型已从海量数据中学习到任务相关的模式(如分类、翻译、推理等),通过精心设计的 Prompt(如指令、示例、格式约束等),可触发模型对特定任务的适配能力。例如:
- 分类任务:给模型输入 “判断句子情感(正面 / 负面):‘这个产品太棒了!’→ 答案:正面”
- 推理任务:输入 “已知 A>B,B>C,那么 A 和 C 的关系是?请一步步推导”
常见方法
- 指令提示(Instruction Prompting):用清晰的自然语言指令描述任务(如 “总结以下文本的核心观点”)。
- 少样本提示(Few-Shot Prompting):在 Prompt 中加入少量任务示例(如 “例 1:输入 X→输出 Y;例 2:输入 A→输出 B;现在输入 C→?”),帮助模型理解任务模式。
- 思维链提示(Chain-of-Thought, CoT):对复杂推理任务,引导模型生成中间推理步骤(如 “先算 XX,再推导 XX,最后得出结论”),提升逻辑能力。
- 格式约束:指定输出格式(如 “用 JSON 格式返回结果:{"实体": [], "关系": []}”),确保输出结构化。
优势与局限
- 优势:无需训练,零成本快速适配任务;适用于数据量极少或无数据的场景。
- 局限:效果高度依赖 Prompt 设计(“Prompt 敏感”);对复杂任务或小模型效果有限;无法稳定固化任务能力(换个表述可能失效)。
Prompt 工程之所以能有效引导大模型输出符合预期的结果,核心原因在于大模型的预训练机制和 “模式匹配” 能力。具体来说,其作用的底层逻辑可以从以下几个角度理解:
1. 大模型的 “预训练知识” 需要被 “激活”
大模型在预训练阶段(如 Llama、GPT 等)通过海量文本(万亿级 token)学习了人类语言的规律、世界知识、逻辑推理模式等。但这些知识是 “隐性” 的,分散在模型的参数中,不会主动 “调用”。Prompt 的作用就像一把 “钥匙”:通过特定的输入形式(如指令、示例),触发模型与任务相关的知识模块。例如,当你输入 “总结以下文本” 时,模型会激活预训练中学习到的 “文本压缩” 模式;当你给出 “例 1:A→B;例 2:C→D” 时,模型会匹配到 “分类 / 映射” 任务的规律。
2. 模型的 “概率预测” 依赖上下文提示
大模型生成文本的核心逻辑是 “基于上下文预测下一个词的概率”。在无提示的情况下,模型的输出是 “通用概率分布”,可能偏离任务需求;而精心设计的 Prompt 会约束概率分布的方向。例如,若想让模型生成 “正面情感的句子”,直接输入 “写一句话” 可能得到中性内容;但输入 “写一句表达开心的话:” 时,模型会根据 “开心” 这个提示,将 “喜悦”“太棒了” 等词的概率调高,从而输出符合要求的内容。
3. 解决 “任务歧义”,明确目标边界
自然语言任务往往存在歧义。例如,用户说 “处理一下这段文字”,模型无法判断是要翻译、总结还是纠错。Prompt 通过清晰定义任务边界,消除歧义。
- 指令类 Prompt(如 “将以下英文翻译成中文”)直接告诉模型 “做什么”;
- 格式约束(如 “用列表输出”)告诉模型 “怎么做”;
- 少样本示例(如给 2 个翻译案例)则通过具体实例展示 “任务标准”。
4. 弥补模型的 “推理短板”,引导逻辑链
大模型在复杂推理(如数学题、多步论证)中容易出错,因为其 “一步到位” 的预测可能忽略中间逻辑。而思维链(CoT)Prompt通过引导模型 “分步思考”,模拟人类的推理过程,从而提升准确性。例如,解决 “5 个苹果分给 2 人,每人至少 1 个,有几种分法?” 时,直接问答案可能出错;但 Prompt 加入 “先考虑每人分 1 个,剩下 3 个怎么分……”,模型会跟着步骤推导,减少疏漏。
5. 适配模型的 “训练数据分布”
大模型的预训练数据中包含大量 “指令 - 响应”“问题 - 答案”“示例 - 模仿” 的文本结构(如书籍中的讲解、论坛中的问答)。Prompt 的设计本质是复现这些数据中的结构模式,让模型处于 “熟悉的输入场景” 中,从而输出更符合预期的结果。例如,模型在训练中见过大量 “定义:XXX;例子:XXX” 的文本,当你用类似结构设计 Prompt 时,模型会自然匹配到 “解释概念” 的任务模式。
总结
Prompt 工程的核心价值在于:用人类可理解的文本形式,为大模型提供 “任务锚点”,激活其预训练知识,约束其生成逻辑,最终弥合 “模型能力” 与 “任务需求” 之间的 gap。它不需要修改模型参数,却能通过 “输入优化” 大幅提升模型在具体任务上的表现,尤其适合快速验证、数据稀缺或低成本适配的场景。
二、前缀微调(Prefix Tuning)
前缀微调是参数高效微调(PEFT)的一种,核心是在输入序列前添加一段可训练的 “前缀参数(Prefix Tokens)”,通过训练这些前缀参数来适配下游任务,而冻结预训练模型的全部原始参数。本质是 “用可学习的参数替代人工设计的 Prompt,将任务适配能力固化到前缀中”。
核心原理
- 在输入文本(如 “用户问题”)前插入一段虚拟的 “前缀序列”(例如:
[P1, P2, ..., Pk],其中Pi是可训练的向量),这些前缀向量会被模型视为输入的一部分参与计算。 - 训练时,仅更新前缀向量的参数,原模型的 Transformer 层、注意力机制等参数保持冻结。前缀向量会 “引导” 模型关注任务相关的特征,从而适配特定任务(如情感分析、专业问答等)。
- 推理时,将训练好的前缀向量拼接在新输入前,模型即可输出适配任务的结果。
特点与适用场景
- 参数效率:仅训练少量前缀参数(通常远小于模型总参数的 1%),计算和存储成本极低。
- 任务适配性:相比 Prompt 工程,前缀微调通过训练将任务模式 “固化”,效果更稳定,尤其适用于数据量中等的场景(如数千条样本)。
- 生成任务友好:前缀向量不占用输入文本的 “语义空间”,对生成类任务(如文本创作、对话生成)更友好,不会像人工 Prompt 那样限制输出长度或风格。
与 Prompt 工程的区别
| 维度 | Prompt 工程 | 前缀微调(Prefix Tuning) |
|---|---|---|
| 是否修改模型参数 | 否(仅调整输入文本) | 是(仅训练前缀参数,冻结原模型) |
| 依赖数据量 | 零样本 / 少样本(无需数据) | 需少量标注数据(用于训练前缀) |
| 效果稳定性 | 依赖人工设计,波动较大 | 通过训练固化,稳定性高 |
| 适用场景 | 快速验证、数据稀缺场景 | 需稳定效果的下游任务部署 |
总结
- Prompt 工程是 “用文本引导模型”,轻量化但依赖人工设计;
- 前缀微调是 “用可学习的参数替代人工 Prompt”,通过少量训练实现更稳定的任务适配,属于参数高效微调的一种。
- 实际应用中,二者可结合:先用 Prompt 工程探索任务模式,再用前缀微调固化效果,平衡效率与性能。
四、LoRA
LoRA,即“Low-Rank Adaptation”,提出了一种非常巧妙的解决方案,实现了所谓的“参数高效
微调”(Parameter-Efficient Fine-Tuning, PEFT)。 它的核心思想是:我们不需要去改动原始
的、预训练好的大模型权重,而是选择“冻结”它们。然后,在模型的特定层(通常是
Transformer的注意力层)旁边,注入两个小型的、可训练的“旁路矩阵”。
这个过程基于一个重要的数学假设:模型在微调过程中,权重的变化量(我们称之为 ΔW)本
质上是一个“低秩”的矩阵。简单来说,就是这个巨大的变化矩阵,其内部包含的有效信息并不需
要那么多的维度来表达。因此,我们可以用两个更小的矩阵的乘积来近似模拟这个大的变化矩
阵。这就是“低秩分解”(Low-Rank Decomposition)。
具体来说,对于模型中的一个预训练权重矩阵 W₀(例如,注意力机制中的 Wq 或 Wv 矩阵),
全量微调会直接更新它,得到一个新的矩阵 W' = W₀ + ΔW。而LoRA的做法是,保持 W₀ 不
变,然后引入两个低秩矩阵 A 和 B,用它们的乘积 B * A 来模拟 ΔW。于是,前向传播的计算
就变成了:h = W₀ * x + B * A * x。这里,x 是输入,h 是输出。


五、RAG
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索与大语言模型生成的技术,核心是让模型在生成回答前,先从外部知识库中检索相关的事实性信息,再基于这些信息进行回答,从而提升输出内容的准确性和可靠性。
简单来说,RAG 相当于给大语言模型 “配备了一个可实时查阅的外部数据库”,解决了传统大模型依赖内部参数记忆、易产生 “模型幻觉”(虚构事实)和 “知识过时”(无法获取训练数据之后的信息)的核心痛点。
RAG 的核心原理与流程
RAG 的工作流程主要分为离线构建知识库和在线检索与生成两大阶段,具体步骤如下:
1. 离线阶段:构建检索知识库(Knowledge Base)
此阶段的目标是将原始数据(如文档、论文、网页等)处理成适合快速检索的格式,核心是 “数据结构化” 和 “建立索引”。
- 数据加载与分割:将原始文本(如 PDF、TXT)拆分为更小的 “文本块”(Chunk),通常按段落或语义逻辑分割(例如每 200-500 个 token 为一块),避免检索时返回过长或无关的内容。
- 文本向量化(Embedding):通过嵌入模型(如 Sentence-BERT、OpenAI Embedding)将每个文本块转换为低维 dense 向量(Embedding Vector)。这些向量会编码文本的语义信息,语义相似的文本块其向量距离更近。
- 构建向量数据库(Vector Database):将所有文本块的向量及对应的原始文本存储到向量数据库中(如 Pinecone、Weaviate、FAISS),向量数据库会优化索引结构,支持后续快速的 “语义相似度检索”。
2. 在线阶段:检索 - 生成联动
当用户提出问题时,模型会实时完成 “检索相关信息→结合信息生成回答” 的闭环:
- 问题向量化:将用户的问题同样通过嵌入模型转换为向量。
- 语义检索:用问题向量在向量数据库中进行 “相似度匹配”,检索出与问题最相关的 Top N 个文本块(例如 Top 3-5)。
- 信息整合与生成:将检索到的文本块作为 “参考资料”,与用户问题一起输入到大语言模型(如 Llama 3、GPT-4)中,让模型基于这些参考信息生成回答,并可在回答中注明信息来源(如 “根据文档 X 中的内容……”)。
RAG 的核心价值(解决的关键问题)
- 降低模型幻觉:回答基于可验证的外部事实信息,而非模型模糊的参数记忆,大幅减少虚构内容的产生。
- 更新知识时效性:无需重新训练大模型,只需更新外部知识库(如加入 2025 年的新数据),即可让模型获取最新信息,解决了传统大模型 “知识截止日期” 的问题。
- 适配垂直领域:通过构建行业专属知识库(如医疗文献库、金融法规库),让通用大模型快速具备专业领域的知识储备,无需进行大规模领域微调。
- 增强回答可解释性:生成的回答可追溯到具体的检索文本块,用户可查看 “参考来源”,提升对回答的信任度(尤其适用于医疗、法律等严肃场景)。
RAG 的典型应用场景
- 智能问答系统:企业内部知识库问答(如员工查询 HR 政策)、客服机器人(如用户查询产品说明书)、学术问答(如学生查询论文知识点)。
- 实时信息咨询:结合新闻、财报等实时更新的知识库,回答 “最新政策是什么”“某公司 2024 年营收如何” 等时效性问题。
- 专业领域辅助:医疗领域辅助医生查询病例、药品信息;法律领域辅助律师检索法规条文、判例;金融领域辅助分析师整合市场数据。

六、MOE
MOE 通常是指混合专家模型(Mixture of Experts),它是一种人工智能技术。以下是关于 MOE 的详细介绍:
- 起源与发展:MOE 的理念最早由 Geoffrey Hinton 等人在 1991 年的论文《Adaptive Mixtures of Local Experts》中提出,用于元音辨别任务。2017 年,Shazeer 等人将 MOE 用于一个 137B 规模的 LSTM,通过引入稀疏性,实现了高效推理,但在翻译任务中仍面临高通信成本和训练不稳定性等挑战。此后,MOE 技术不断发展,使得训练具有数千亿甚至万亿参数的模型成为可能,如开源的 1.6 万亿参数的 Switch Transformers 等。
- 核心结构:MOE 主要由两个核心部分组成。一是稀疏 MOE 层,它取代了传统 Transformer 的前馈网络(FFN)层,由多个 “专家” 组成,每个专家是一个独立的神经网络,通常是 FFN,也可以是更复杂的结构。二是门控网络或路由,其作用是决定哪些 Token 由哪个专家处理,路由方式由可学习的参数控制,并与整个模型一同训练。
- 工作原理:在训练阶段,先分别训练每个专家,让它们在各自的领域变得擅长,同时训练门控网络,使其学会根据问题特点选择合适的专家,最后将专家和门控网络放在一起联合训练。在推理阶段,当有新问题时,门控网络会根据问题特点选择一个或多个专家来处理,被选中的专家处理问题并给出答案,门控网络再将各个专家的答案进行加权组合,得到最终答案。
- 优势:MOE 能在远低于稠密模型的计算成本下进行高效预训练,意味着在相同预算下,可以训练更大规模的模型或数据集,并且在预训练阶段,MOE 模型通常比稠密模型更快达到相同的质量水平。
- 挑战:MOE 在微调阶段容易泛化能力不足,导致过拟合;在推理时,虽然只激活部分参数进行推理,速度快于同等规模的稠密模型,但所有参数仍需加载到内存,导致较高的 VRAM 需求。
- 应用场景:MOE 可以应用于各种不同的任务,例如智能客服、机器翻译等自然语言处理领域,也开始在计算机视觉领域进行探索。
三、SFT/RLHF

完整整理私信我
四、DPO PPO GRPO
