当前位置：首页 > news >正文

算法面经常考题整理（3）大模型

news 2025/10/24 18:45:55

一、Llama

Llama 是 Meta 公司推出的一系列人工智能语言模型。以下是关于它的详细介绍：

发展历程：2023 年 2 月，Meta 正式推出 Llama 初代模型，包含 7B、13B、33B 和 65B 参数版本。2023 年 7 月，Meta 发布 Llama 2，参数规模扩展至 700 亿，训练数据量翻倍至 2 万亿 token，新增指令对齐与强化学习技术，首次支持商业用途。2024 年 4 月，Llama 3 发布，参数规模跨越至 4050 亿，训练效率提升三倍。2024 年 7 月，Llama 3.1 登场，在 13 项基准测试中 11 项超越 GPT-4o。
模型架构：Llama 基于 Transformer 的 decoder - only 架构，核心组件包括多个 Transformer 块，每层包含多头自注意力机制和前馈神经网络。Llama 2 使用 RMSNorm 替代 LayerNorm 以提升稳定性，并采用 SwiGLU 激活函数增强非线性能力，还引入了分组查询注意力的变体以减少计算开销。Llama 3 则选择了标准的仅解码式 Transformer 架构，采用包含 128K token 词汇表的分词器。
性能特点：Llama 具有多语言无缝交互能力，原生支持 8 种语言理解与生成，可扩展至 30 + 语种。其上下文窗口处理能力不断提升，Llama 3.1 可扩展至 128K。在数学推理与代码生成方面，Llama 3.1 达到顶尖闭源模型水平。
应用场景：Llama 支持文本生成、代码编写、图像解析等跨领域任务，可应用于自然语言处理、对话系统、信息检索、机器翻译等多个领域。

在面试中，关于 Llama 的常考题主要有以下几类：

模型架构相关
- Llama 采用了什么架构？Llama 基于 Transformer 的 decoder - only 架构，这种架构有什么优势？：Llama 采用 Transformer 的 decoder - only 架构。其优势在于，自注意力机制能有效捕捉词与词之间的长距离依赖关系，还支持并行计算，可极大提高模型的计算效率。此外，该架构采用自回归生成方式，生成的内容具有强上下文依赖性，能确保输出的连贯性和语义合理性。
- Llama 2 的网络架构是怎样的？使用了哪些注意力机制？：Llama 2 的网络架构基于 Transformer，使用了分组查询注意力的变体，以减少计算开销。同时，它还使用 RMSNorm 替代 LayerNorm 以提升稳定性，并采用 SwiGLU 激活函数增强非线性能力。
- Llama 2 的位置编码是什么？讲讲几种位置编码的异同。：Llama 2 使用的是旋转位置嵌入（RoPE）。常见的位置编码还有绝对位置编码和相对位置编码。绝对位置编码为每个位置分配一个固定的向量表示，相对位置编码则是根据词与词之间的相对位置关系来计算位置向量。RoPE 则是通过旋转操作将位置信息融入到词向量中，它能够在不增加模型参数的情况下，有效地捕捉长距离的位置信息。
训练相关
- Llama 3 训练如何保证数据质量？：Llama 3 通过多种方式保证数据质量。在训练数据清洗阶段，进行安全性过滤，排除包含个人信息、有害内容和成人内容的文本；使用 HTML 解析器提取文本、代码和数学公式，同时去除 markdown 标签；通过 URL 去重、Document - level 去重、Line - level 去重、启发式去重等方式去除重复内容；还使用多种模型评估文档质量，如 Llama2 - chat 和 DistilledRobera。在不同来源训练数据配比方面，约 50% 的 token 与通用知识相关，25% 的数学和推理数据，17% 的代码数据，8% 的多语言数据。在后训练数据质量控制阶段，使用启发式规则清洗频繁出现的脏数据，如 emoji 符号、感叹号和道歉前缀等；使用 Llama3 8B 微调的主题分类器对数据进行二级主题分类；使用奖励模型和 Llama - prompt 对样本进行质量打分；设计 Llama3 70B 的 prompt，抽取 SFT 数据中的意图，根据意图数量判断问题复杂度；使用 Roberta 对样本聚类，根据质量分和复杂度排序，过滤高度相似的样本。
- Llama 的训练数据来源有哪些？如何进行数据处理？：Llama 的训练数据来源广泛，包括网页文本、书籍、论文等。在数据处理方面，会进行清洗、去重、分类等操作。例如，Llama 3 会对训练数据进行安全性过滤、文本清洗、去重等操作，还会使用基于 fasttext 的语言分类模型将所有数据分类成 176 种语言，在每种语言内部执行 document - level 和 line - level 去重，使用每种语言专门的模型和启发式规则过滤低质量样本。
- Llama 2 的训练数据量是 2 万亿 token，Llama 3 的训练数据量是 15 万亿 token，这么大规模的数据训练过程中遇到了哪些挑战？是如何解决的？：大规模数据训练的挑战包括计算资源需求大、训练效率低、数据质量控制难等。Llama 3 通过 LlamaRL 框架来解决这些问题。LlamaRL 采用完全基于原生 PyTorch 的简化单控制器架构，可无缝扩展到数千个 GPU，支持高效训练大规模 LLM；通过协同定位模型卸载，将生成过程从训练集群完全卸载，可进行细粒度并行和量化优化，显著降低计算和内存需求；采用异步离线策略 RL，训练和生成过程异步并行运行，大幅提高吞吐量和资源利用率，引入 AIPO 算法有效缓解大规模训练中的训练不稳定性；开发全分布式、GPU 原生的同步方法，利用 NVLink 实现 GPU 到 GPU 的零拷贝传输，实现数万亿级模型在数千 GPU 上约 2 秒的权重更新，且呈线性可扩展性。
性能优化相关
- 如何对 Llama 模型进行性能优化？比如量化、剪枝等技术在 Llama 上的应用。：可以使用量化技术对 Llama 模型进行性能优化，如 Llama 2 支持 INT4/INT8 量化，通过将模型参数和激活值用更低精度的数值表示，可减少模型的存储空间和计算量，同时保持一定的性能。剪枝技术也可以应用于 Llama 模型，通过去除不重要的连接或参数，来降低模型的复杂度，提高推理速度。此外，还可以通过模型蒸馏、优化模型架构等方式来优化 Llama 模型的性能。
- Llama 2 支持 INT4/INT8 量化，量化技术对 Llama 模型的性能有什么影响？：量化技术可以减少 Llama 模型的存储空间和计算量，从而提高模型的推理速度和效率。例如，INT4/INT8 量化可以将模型的参数和激活值用 4 位或 8 位整数表示，相比 32 位浮点数，存储空间可以大大减少。在一些场景下，量化后的模型性能可能会有轻微下降，但通过合理的量化方法和参数调整，可以在保证一定性能的前提下，实现模型的轻量化和高效化。
应用相关
- Llama 在实际应用中遇到过哪些问题？比如模型幻觉、复读机问题等，是如何解决的？：Llama 在实际应用中可能会遇到模型幻觉(模型幻觉可以分为事实性幻觉和忠实性幻觉两类。事实性幻觉是指模型生成的内容与可验证的现实世界事实不一致，包括事实不一致和事实捏造。忠实性幻觉则是指模型生成的内容与用户的指令或上下文不一致，可细分为指令不一致、上下文不一致和逻辑不一致。)、复读机问题等。对于模型幻觉问题，可以通过优化训练数据、增加事实性知识的注入、使用强化学习等方法来解决。对于复读机问题，可以通过调整模型的生成策略、增加上下文的多样性等方式来改善。例如，在生成文本时，可以引入一些随机性，避免模型总是生成相同的内容。
- 如果你要将 Llama 应用于某个特定领域，比如医疗、金融，你会如何进行微调？：可以使用特定领域的数据对 Llama 进行微调。首先，收集和整理医疗或金融领域的专业数据，然后使用 LoRA（Low - Rank Adaptation）等技术对 Llama 进行微调。LoRA 可以通过训练少量新增参数，来调整预训练模型的参数，从而提升模型在特定领域的性能。例如，在医疗领域，可以使用医疗病历、医学文献等数据进行微调，让模型能够更好地理解和处理医疗相关的问题。

二、PEFT

PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）是一种针对大语言模型的微调技术，核心是通过仅训练模型中极小比例的新增或特定参数，而非全部参数，来实现模型在下游任务上的性能提升。

这种技术解决了传统全量微调的核心痛点：大模型（如千亿参数级）全量微调时，计算资源消耗极高、训练时间长且容易过拟合。PEFT 在大幅降低计算和存储成本的同时，能保留预训练模型的通用能力，并快速适配特定任务。

PEFT 的核心原理

PEFT 的本质是 “冻结预训练模型的大部分参数，仅对少量参数进行更新”。其核心逻辑基于 “预训练模型已学习到通用知识，下游任务只需微调模型中与任务相关的‘特定部分’即可”。通过这种方式，既能让模型适配新任务，又避免了破坏预训练阶段学到的通用特征。

常见的 PEFT 方法

不同 PEFT 方法的核心区别在于 “选择哪些参数进行训练”，以下是最主流的三种：

LoRA（Low-Rank Adaptation）
- 原理：在预训练模型的关键层（如 Transformer 的注意力层）中插入一对低秩矩阵（权重矩阵 A 和 B），训练时仅更新这两个小矩阵的参数，而冻结原模型的所有参数。
- 优势：参数增量极小（通常仅原模型的 0.1%-1%），训练速度快，多个任务的 LoRA 矩阵可灵活切换，实现 “一模型多任务”。
- 应用：目前最广泛的 PEFT 方法，被 Llama、GPT 等主流模型普遍采用。
Prefix Tuning（前缀微调）
- 原理：在输入序列的开头添加一段可训练的 “前缀参数”（Prefix Tokens），将其视为模型的 “任务提示”，训练时仅更新前缀参数，冻结原模型参数。
- 优势：完全不修改原模型结构，对生成类任务（如文本创作、对话）适配性较好。
- 不足：前缀长度需手动调整，对部分理解类任务的效果略逊于 LoRA。
Adapter Tuning（适配器微调）
- 原理：在 Transformer 的每一层（或部分层）中插入小型 “适配器模块”（通常是 bottleneck 结构的神经网络），训练时仅更新适配器的参数，原模型参数保持冻结。
- 优势：结构灵活，可根据任务需求调整适配器的位置和大小。
- 不足：参数增量略高于 LoRA，可能轻微增加模型的推理延迟。

PEFT 的核心优势

低资源消耗：无需存储和训练整个大模型，显存占用可降低 50%-90%，普通 GPU 也能完成微调。
泛化能力强：冻结的预训练参数保留了通用知识，新增参数仅适配特定任务，不易过拟合。
部署高效：多个任务的微调参数可独立存储，切换任务时无需加载多个完整模型，仅需替换 PEFT 部分的参数。

PEFT 的典型应用场景

垂直领域适配：将通用大模型（如 Llama 3）通过 PEFT 微调为医疗、金融、法律等领域的专用模型。
小样本学习：在下游任务数据量较少（如仅数百条样本）时，PEFT 能有效利用预训练知识，避免过拟合。
多任务部署：同一基础模型可通过加载不同的 PEFT 参数，同时处理翻译、摘要、问答等多个任务。

三、Prompt工程与前缀微调

Prompt 工程与前缀微调（Prefix Tuning）是大模型适配下游任务的两种重要技术，二者在理念和实现上既有关联又有显著差异，以下分别介绍：

一、Prompt 工程（Prompt Engineering）

Prompt 工程是通过设计输入文本（Prompt）的形式，引导大模型在不修改参数的情况下，更好地理解任务需求并输出符合预期的结果。核心是 “用自然语言指令或示例‘激活’模型的固有能力”，无需训练，属于 “零样本 / 少样本学习” 范畴。

核心原理

预训练大模型已从海量数据中学习到任务相关的模式（如分类、翻译、推理等），通过精心设计的 Prompt（如指令、示例、格式约束等），可触发模型对特定任务的适配能力。例如：

分类任务：给模型输入 “判断句子情感（正面 / 负面）：‘这个产品太棒了！’→ 答案：正面”
推理任务：输入 “已知 A>B，B>C，那么 A 和 C 的关系是？请一步步推导”

常见方法

指令提示（Instruction Prompting）：用清晰的自然语言指令描述任务（如 “总结以下文本的核心观点”）。
少样本提示（Few-Shot Prompting）：在 Prompt 中加入少量任务示例（如 “例 1：输入 X→输出 Y；例 2：输入 A→输出 B；现在输入 C→？”），帮助模型理解任务模式。
思维链提示（Chain-of-Thought, CoT）：对复杂推理任务，引导模型生成中间推理步骤（如 “先算 XX，再推导 XX，最后得出结论”），提升逻辑能力。
格式约束：指定输出格式（如 “用 JSON 格式返回结果：{"实体": [], "关系": []}”），确保输出结构化。

优势与局限

优势：无需训练，零成本快速适配任务；适用于数据量极少或无数据的场景。
局限：效果高度依赖 Prompt 设计（“Prompt 敏感”）；对复杂任务或小模型效果有限；无法稳定固化任务能力（换个表述可能失效）。

Prompt 工程之所以能有效引导大模型输出符合预期的结果，核心原因在于大模型的预训练机制和 “模式匹配” 能力。具体来说，其作用的底层逻辑可以从以下几个角度理解：

1. 大模型的 “预训练知识” 需要被 “激活”

大模型在预训练阶段（如 Llama、GPT 等）通过海量文本（万亿级 token）学习了人类语言的规律、世界知识、逻辑推理模式等。但这些知识是 “隐性” 的，分散在模型的参数中，不会主动 “调用”。Prompt 的作用就像一把 “钥匙”：通过特定的输入形式（如指令、示例），触发模型与任务相关的知识模块。例如，当你输入 “总结以下文本” 时，模型会激活预训练中学习到的 “文本压缩” 模式；当你给出 “例 1：A→B；例 2：C→D” 时，模型会匹配到 “分类 / 映射” 任务的规律。

2. 模型的 “概率预测” 依赖上下文提示

大模型生成文本的核心逻辑是 “基于上下文预测下一个词的概率”。在无提示的情况下，模型的输出是 “通用概率分布”，可能偏离任务需求；而精心设计的 Prompt 会约束概率分布的方向。例如，若想让模型生成 “正面情感的句子”，直接输入 “写一句话” 可能得到中性内容；但输入 “写一句表达开心的话：” 时，模型会根据 “开心” 这个提示，将 “喜悦”“太棒了” 等词的概率调高，从而输出符合要求的内容。

3. 解决 “任务歧义”，明确目标边界

自然语言任务往往存在歧义。例如，用户说 “处理一下这段文字”，模型无法判断是要翻译、总结还是纠错。Prompt 通过清晰定义任务边界，消除歧义。

指令类 Prompt（如 “将以下英文翻译成中文”）直接告诉模型 “做什么”；
格式约束（如 “用列表输出”）告诉模型 “怎么做”；
少样本示例（如给 2 个翻译案例）则通过具体实例展示 “任务标准”。

4. 弥补模型的 “推理短板”，引导逻辑链

大模型在复杂推理（如数学题、多步论证）中容易出错，因为其 “一步到位” 的预测可能忽略中间逻辑。而思维链（CoT）Prompt通过引导模型 “分步思考”，模拟人类的推理过程，从而提升准确性。例如，解决 “5 个苹果分给 2 人，每人至少 1 个，有几种分法？” 时，直接问答案可能出错；但 Prompt 加入 “先考虑每人分 1 个，剩下 3 个怎么分……”，模型会跟着步骤推导，减少疏漏。

5. 适配模型的 “训练数据分布”

大模型的预训练数据中包含大量 “指令 - 响应”“问题 - 答案”“示例 - 模仿” 的文本结构（如书籍中的讲解、论坛中的问答）。Prompt 的设计本质是复现这些数据中的结构模式，让模型处于 “熟悉的输入场景” 中，从而输出更符合预期的结果。例如，模型在训练中见过大量 “定义：XXX；例子：XXX” 的文本，当你用类似结构设计 Prompt 时，模型会自然匹配到 “解释概念” 的任务模式。

总结

Prompt 工程的核心价值在于：用人类可理解的文本形式，为大模型提供 “任务锚点”，激活其预训练知识，约束其生成逻辑，最终弥合 “模型能力” 与 “任务需求” 之间的 gap。它不需要修改模型参数，却能通过 “输入优化” 大幅提升模型在具体任务上的表现，尤其适合快速验证、数据稀缺或低成本适配的场景。

二、前缀微调（Prefix Tuning）

前缀微调是参数高效微调（PEFT）的一种，核心是在输入序列前添加一段可训练的 “前缀参数（Prefix Tokens）”，通过训练这些前缀参数来适配下游任务，而冻结预训练模型的全部原始参数。本质是 “用可学习的参数替代人工设计的 Prompt，将任务适配能力固化到前缀中”。

核心原理

在输入文本（如 “用户问题”）前插入一段虚拟的 “前缀序列”（例如：[P1, P2, ..., Pk]，其中Pi是可训练的向量），这些前缀向量会被模型视为输入的一部分参与计算。
训练时，仅更新前缀向量的参数，原模型的 Transformer 层、注意力机制等参数保持冻结。前缀向量会 “引导” 模型关注任务相关的特征，从而适配特定任务（如情感分析、专业问答等）。
推理时，将训练好的前缀向量拼接在新输入前，模型即可输出适配任务的结果。

特点与适用场景

参数效率：仅训练少量前缀参数（通常远小于模型总参数的 1%），计算和存储成本极低。
任务适配性：相比 Prompt 工程，前缀微调通过训练将任务模式 “固化”，效果更稳定，尤其适用于数据量中等的场景（如数千条样本）。
生成任务友好：前缀向量不占用输入文本的 “语义空间”，对生成类任务（如文本创作、对话生成）更友好，不会像人工 Prompt 那样限制输出长度或风格。

与 Prompt 工程的区别

维度	Prompt 工程	前缀微调（Prefix Tuning）
是否修改模型参数	否（仅调整输入文本）	是（仅训练前缀参数，冻结原模型）
依赖数据量	零样本 / 少样本（无需数据）	需少量标注数据（用于训练前缀）
效果稳定性	依赖人工设计，波动较大	通过训练固化，稳定性高
适用场景	快速验证、数据稀缺场景	需稳定效果的下游任务部署

总结

Prompt 工程是 “用文本引导模型”，轻量化但依赖人工设计；
前缀微调是 “用可学习的参数替代人工 Prompt”，通过少量训练实现更稳定的任务适配，属于参数高效微调的一种。
实际应用中，二者可结合：先用 Prompt 工程探索任务模式，再用前缀微调固化效果，平衡效率与性能。

四、LoRA

LoRA，即“Low-Rank Adaptation”，提出了一种非常巧妙的解决方案，实现了所谓的“参数高效
微调”（Parameter-Efficient Fine-Tuning, PEFT）。它的核心思想是：我们不需要去改动原始
的、预训练好的大模型权重，而是选择“冻结”它们。然后，在模型的特定层（通常是
Transformer的注意力层）旁边，注入两个小型的、可训练的“旁路矩阵”。
这个过程基于一个重要的数学假设：模型在微调过程中，权重的变化量（我们称之为 ΔW）本
质上是一个“低秩”的矩阵。简单来说，就是这个巨大的变化矩阵，其内部包含的有效信息并不需
要那么多的维度来表达。因此，我们可以用两个更小的矩阵的乘积来近似模拟这个大的变化矩
阵。这就是“低秩分解”（Low-Rank Decomposition）。
具体来说，对于模型中的一个预训练权重矩阵 W₀（例如，注意力机制中的 Wq 或 Wv 矩阵），
全量微调会直接更新它，得到一个新的矩阵 W' = W₀ + ΔW。而LoRA的做法是，保持 W₀ 不
变，然后引入两个低秩矩阵 A 和 B，用它们的乘积 B * A 来模拟 ΔW。于是，前向传播的计算
就变成了：h = W₀ * x + B * A * x。这里，x 是输入，h 是输出。

五、RAG

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了信息检索与大语言模型生成的技术，核心是让模型在生成回答前，先从外部知识库中检索相关的事实性信息，再基于这些信息进行回答，从而提升输出内容的准确性和可靠性。

简单来说，RAG 相当于给大语言模型 “配备了一个可实时查阅的外部数据库”，解决了传统大模型依赖内部参数记忆、易产生 “模型幻觉”（虚构事实）和 “知识过时”（无法获取训练数据之后的信息）的核心痛点。

RAG 的核心原理与流程

RAG 的工作流程主要分为离线构建知识库和在线检索与生成两大阶段，具体步骤如下：

1. 离线阶段：构建检索知识库（Knowledge Base）

此阶段的目标是将原始数据（如文档、论文、网页等）处理成适合快速检索的格式，核心是 “数据结构化” 和 “建立索引”。

数据加载与分割：将原始文本（如 PDF、TXT）拆分为更小的 “文本块”（Chunk），通常按段落或语义逻辑分割（例如每 200-500 个 token 为一块），避免检索时返回过长或无关的内容。
文本向量化（Embedding）：通过嵌入模型（如 Sentence-BERT、OpenAI Embedding）将每个文本块转换为低维 dense 向量（Embedding Vector）。这些向量会编码文本的语义信息，语义相似的文本块其向量距离更近。
构建向量数据库（Vector Database）：将所有文本块的向量及对应的原始文本存储到向量数据库中（如 Pinecone、Weaviate、FAISS），向量数据库会优化索引结构，支持后续快速的 “语义相似度检索”。

2. 在线阶段：检索 - 生成联动

当用户提出问题时，模型会实时完成 “检索相关信息→结合信息生成回答” 的闭环：

问题向量化：将用户的问题同样通过嵌入模型转换为向量。
语义检索：用问题向量在向量数据库中进行 “相似度匹配”，检索出与问题最相关的 Top N 个文本块（例如 Top 3-5）。
信息整合与生成：将检索到的文本块作为 “参考资料”，与用户问题一起输入到大语言模型（如 Llama 3、GPT-4）中，让模型基于这些参考信息生成回答，并可在回答中注明信息来源（如 “根据文档 X 中的内容……”）。

RAG 的核心价值（解决的关键问题）

降低模型幻觉：回答基于可验证的外部事实信息，而非模型模糊的参数记忆，大幅减少虚构内容的产生。
更新知识时效性：无需重新训练大模型，只需更新外部知识库（如加入 2025 年的新数据），即可让模型获取最新信息，解决了传统大模型 “知识截止日期” 的问题。
适配垂直领域：通过构建行业专属知识库（如医疗文献库、金融法规库），让通用大模型快速具备专业领域的知识储备，无需进行大规模领域微调。
增强回答可解释性：生成的回答可追溯到具体的检索文本块，用户可查看 “参考来源”，提升对回答的信任度（尤其适用于医疗、法律等严肃场景）。

RAG 的典型应用场景

智能问答系统：企业内部知识库问答（如员工查询 HR 政策）、客服机器人（如用户查询产品说明书）、学术问答（如学生查询论文知识点）。
实时信息咨询：结合新闻、财报等实时更新的知识库，回答 “最新政策是什么”“某公司 2024 年营收如何” 等时效性问题。
专业领域辅助：医疗领域辅助医生查询病例、药品信息；法律领域辅助律师检索法规条文、判例；金融领域辅助分析师整合市场数据。

六、MOE

MOE 通常是指混合专家模型（Mixture of Experts），它是一种人工智能技术。以下是关于 MOE 的详细介绍：

起源与发展：MOE 的理念最早由 Geoffrey Hinton 等人在 1991 年的论文《Adaptive Mixtures of Local Experts》中提出，用于元音辨别任务。2017 年，Shazeer 等人将 MOE 用于一个 137B 规模的 LSTM，通过引入稀疏性，实现了高效推理，但在翻译任务中仍面临高通信成本和训练不稳定性等挑战。此后，MOE 技术不断发展，使得训练具有数千亿甚至万亿参数的模型成为可能，如开源的 1.6 万亿参数的 Switch Transformers 等。
核心结构：MOE 主要由两个核心部分组成。一是稀疏 MOE 层，它取代了传统 Transformer 的前馈网络（FFN）层，由多个 “专家” 组成，每个专家是一个独立的神经网络，通常是 FFN，也可以是更复杂的结构。二是门控网络或路由，其作用是决定哪些 Token 由哪个专家处理，路由方式由可学习的参数控制，并与整个模型一同训练。
工作原理：在训练阶段，先分别训练每个专家，让它们在各自的领域变得擅长，同时训练门控网络，使其学会根据问题特点选择合适的专家，最后将专家和门控网络放在一起联合训练。在推理阶段，当有新问题时，门控网络会根据问题特点选择一个或多个专家来处理，被选中的专家处理问题并给出答案，门控网络再将各个专家的答案进行加权组合，得到最终答案。
优势：MOE 能在远低于稠密模型的计算成本下进行高效预训练，意味着在相同预算下，可以训练更大规模的模型或数据集，并且在预训练阶段，MOE 模型通常比稠密模型更快达到相同的质量水平。
挑战：MOE 在微调阶段容易泛化能力不足，导致过拟合；在推理时，虽然只激活部分参数进行推理，速度快于同等规模的稠密模型，但所有参数仍需加载到内存，导致较高的 VRAM 需求。
应用场景：MOE 可以应用于各种不同的任务，例如智能客服、机器翻译等自然语言处理领域，也开始在计算机视觉领域进行探索。

三、SFT/RLHF