当前位置：首页 > news >正文

【收藏必备】大模型面试宝典：Transformer到实战应用全解析，助你斩获30W年薪offer！

news 2025/9/4 11:07:09

此文专为冲击大模型算法秋招的同学准备的面试题库，这些面试题你必须掌握！

01Transformer 篇

Transformer 的结构是什么？

Transformer 由编码器（Encoder）和解码器（Decoder）两部分组成，两部分都包含目标嵌入层、位置编码、多头注意力层、前馈网络，且有残差连接和层归一化，注意：解码器使用的是掩码多头。

Transformer 的核心优势是什么？

并行能力强：不同于 RNN，transformer 的自注意力机制消除了序列数据的时间依赖，允许模型并行训练。

超长序列建模能力：自注意力机制可以直接捕捉序列中任意位置的依赖关系，而不受距离的限制。

灵活性和扩展性：transformer 在 CV、NLP 都有很好的表现，自编码、自回归、T5 架构涌现很多高级模型。

什么是 Transformer 绝对位置编码？

为什么 Transformer 需要位置编码？Transformer 架构完全基于自注意力机制，并不具备像 RNN 和 CNN 那样有保存顺序信息。

因此，为了让模型能够知道每个输入元素在序列中的位置，必须显式地为每个输入添加额外的位置信息。

什么是绝对位置编码？是最常见的做法，通过为每个位置（每个 token）分配一个独特的向量表示该位置的信息，这些位置编码会被加入到输入的词向量中。

这样，模型可以根据每个位置的编码来推断元素的相对或绝对位置。

绝对位置编码优势：

固定且确定：最初的 Transformer 使用的是正弦和余弦函数来计算每个位置的编码，能确保位置编码不会因训练而变化。
适用长序列：不同频率的正弦和余弦函数，能够捕捉到非常细致的位置信息。

绝对位置编码的局限性：

无法直接表达相对位置关系：比如位置 5，6，与位置 100,101 的位置编码是相似的，但它们之间的相对距离对模型是不可见的。
难以泛化到极长序列：对于超出训练序列长度范围的序列，它们的信息就会丢失。

位置编码有哪些？它们各有什么不同？

绝对位置编码：使用正弦和余弦函数来为每个位置生成唯一的编码，最早在原始 transformer 论文中提出。

相对位置编码：试图解决绝对位置编码的局限性，尤其在长序列处理和相对位置关系非常重要的任务中。

它是依赖元素间的相对位置，实现方式一般是在计算注意力得分时，将位置差值作为额外偏置项加入。

优点是：更加适用于长序列，缺点是：增加了模型的复杂性。

旋转位置编码 RoPE：是一种创新的相对位置编码。通过旋转嵌入空间的向量，将相对位置关系融入自注意力计算过程中。

优点：能显式的捕捉相对位置关系，缺点是：相对复杂，需要进行额外的旋转操作。

可学习位置编码：位置编码不再是固定函数生成，而是学习得到，在训练过程中优化位置编码的值。

优点是：灵活度高，缺点是：训练不稳定，缺乏可解释性。

LLaMa为什么用旋转位置编码？

长序列的高效处理：相比传统的绝对位置编码，旋转位置编码更加灵活、有效的处理长序列。

相对位置的表达能力：能更好的捕捉元素间的相对位置关系，从而更好的学习长程依赖。

计算效率和简洁性：相比正弦余弦编码更加高效，计算成本更低。

迁移学习的优势：具有更强的迁移能力，在不同长度的序列上均能稳定工作。

为什么 transformer 块使用 LayerNorm 而不是 BatchNorm？

变长序列问题：对于长度不一致的输入，BatchNorm 很难在一个批次中计算一致的信息，而 LayerNorm 只依赖单个样本，可独立计算均值和方差。

并行处理：transformer 的自注意力机制需要并行处理序列任意位置元素之间的关系，BatchNorm 难以并行化。

训练与推理的不一致性：BatchNorm 训练时是使用当前批次的均值和方差，而推理用的是整训练数据的统计信息，会造成统计偏移。

在这里插入图片描述

如何优化 transformer 模型的性能？

（1）模型架构优化

自注意力机制优化：

局部注意力：为解决长序列计算代价，可以限制注意力范围只关注临近几个 token 来减少计算量，如 Linformer、Reformer。
稀疏注意力：通过限制计算的注意力头，或使用可学习的注意力模式 Performer，来减少不必要的计算量。
跨层共享：在不同 transformer 层之间共享注意力权重，减少模型复杂度。

改进位置编码：

相对位置编码替代绝对位置编码，可以更好捕获长距离依赖。
混合位置编码：结合绝对和相对位置编码，互补优势。

激活函数与优化器：使用更高效的激活函数（Swish、GeLU），比 ReLU 更加平滑。使用更先进的优化器 AdamW。

（2）训练过程优化

如下：

学习率调度：学习率预热，学习率衰减、动态学习率调整。
混合精度计算：使用 FP16 精度训练，加速计算节省内存。
正则化和 dropout：防止过拟合
梯度累积：减少计算
混合内存优化：GPU 与 CPU 同时处理训练
数据并行、模型并行

（3）模型后处理

如下：

模型蒸馏
模型量化
模型剪枝

（4）硬件性能优化

如下：

多 GPU 分布式训练
TensorRT、ONNX

Transformer 有哪些加速收敛的操作？

如下：

学习率调度：学习率预热，学习率衰减。
混合精度训练：使用 FP16 精度训练，加速计算节省内存。
激活函数、优化器
预训练 + 微调策略：能显著加速模型的收敛。

Transformer 有哪些防止过拟合的操作？

如下：

数据端：数据增强，同义替换。
正则化：Dropout、L2 正则化
归一化：层归一化 layernorm、批次归一化 batchnorm
早停：一定周期内无显著提升，可停止训练

在 transformer 中，同一个词可以有不同的注意力权重吗？

当然是的。因为每个词会根据输入的上下文信息动态计算注意力权重，而不仅仅是对其他位置的词进行统一的计算。

02 大模型应用篇

大模型开发的 6 个核心技术

如下：

Prompt 提示词工程：交流的指令，越清晰越好；
function call 函数调用外部 API 工具：外部力量，比如抽水我们知道找抽水泵，出门看天气知道查询天气预报；
RAG 检索增强：开卷考试；
Agent 智能体：谋定而后动，事先规划，再落地行动；
Fine-tuning 微调：知识学霸，将书上的知识全部学到大脑中；
LLM 大模型：预训练一个无所不知的智者；

越往下越底层，难度越高，成本越大，实施风险越大

大模型性能优化方向

算法层面：利用模型量化、知识蒸馏、模型剪枝等技术，减小模型的大小和计算的复杂度；

软件层面：

计算图优化：数据并行（切分数据，文章末尾有详细解释）；模型并行（切分模型，文章末尾有详细解释）；
模型编译优化：使用 ONNX 支持的框架（PyTorch/TF/Keras）训练好模型后，将其导出为 ONNX 格式，再使用 ONNX Runtime 或 TensorRT 进行优化，从而提高模型在 GPU 上的执行效率；

硬件层面：英伟达 H 系列后就支持 FP8（float point 8-bit）精度训练，相较于 float32 和 float16，FP8进一步减少了数据存储空间和计算量，而且 FP8 兼顾 FP16 的稳定性 + int8 的速度；

RAG 与 Agent 的区别

在这里插入图片描述
)

RAG 的本质：是为了弥补大模型在特定领域知识的不足。整个过程相对稳定，LLM 可发挥的空间较少；

Agent 的本质：是为了解决复杂的任务。不同模型对任务的理解、拆解相差较大，所以 Agent 对 LLM 的能力要求较高；

实际项目中会使用 Agent + RAG 的方式，对 Agent 中的每一个【任务 n】都走一遍 RAG 流程；

RAG 与微调的应用场景

微调场景：

定制大模型的能力
对响应时间有要求
智能设备中的应用

对开源模型做微调，影响的权重也只占 1%~5% 左右，微调数据与原本数据是否能相容、新模型的鲁棒性是否有提高都比较难把控，所以在实际项目中，能不使用微调就不微调。有兴趣可以试试 LLaMA-Factory 大模型微调平台；

RAG 场景：

数据需要保密
无反应时间要求

模型量化、蒸馏、剪枝

大语言模型在训练和使用中都会占据大量计算资源和存储空间，为了能在有限的资源下，保证大模型的性能，一般会使用模型压缩技术。

一般的模型压缩的方式有以下三种：

模型量化（Quantization）：主要是牺牲模型精度，用低精度的参数代替高精度参数参与计算，从而降低模型大小和计算复杂度；
模型蒸馏（Distillation）：实施在数据端，用最强模型的输出反馈做数据蒸馏，微调自身小模型具备最强模型的输出能力；
模型剪枝：落地效果不好，很少用，实施在模型端，移除模型中不重要的权重，减小模型大小和计算复杂度；

（1）模型量化

举例：一个 6B 的模型（60 亿参数），参数精度是 float16（一个参数占 2 字节），那么它模型大小就是 12G 左右。不同参数精度所占的字节数不同，一般有四个等级的参数精度（8bit 等于 1 字节）：

FP32（单精度 32 位浮点数）：高精度，一个参数占 4 字节，更大的内存占用和更长的计算时间；

FP16（半精度 16 位浮点数）：常用精度，一个参数占 2 字节，资源占用与精度相对均衡；

FP8：英伟达 H 系列后就支持 FP8 精度，兼顾 FP16 的精度和 INT8 的速度；

INT8（将浮点数转换为 8 位整数）：精度较低，一个参数占 1 字节，但可以显著减少存储和计算的需求

INT4（将浮点数转换为4位整数）：精度很低，一个参数占 0.5 字节，很激进的量化方式，很可能导致模型失真；

GPT 3.5 有 1750 亿个参数，以 float16 精度为例，模型就有 350G 左右，对于模型加载、训练、测试都不是很方便，选择合适的量化方式，在模型精度与资源占用中寻找合适的平衡；

常见的模型量化方法：详情请看链接：GPTQ 、GGUF 、AWQ

https://blog.csdn.net/zzZ_CMing/article/details/142464904?spm=1001.2014.3001.5502

（2）模型蒸馏

模型蒸馏（Knowledge Distillation）是一种通过压缩大型模型（如GPT_dream）的知识来训练小模型的技术，使得小模型能够在推理速度、资源占用等方面有所提升，同时尽量保持大模型的性能；

数据准备：首先收集一个涵盖广泛问题的数据集，这个数据集可以来自真实场景，也可以通过设计各种问题覆盖不同的任务和领域；

教师模型输出：使用大模型（GPT_dream）作为教师模型，对这些问题进行推理，生成对应的输出。

记录下这些问题-答案对，形成新的 QA 数据集。这个数据集由问题作为输入，教师模型的输出作为目标标签；

学生模型训练：将生成的 QA 数据用作小模型的训练数据。训练过程中，学生模型学习教师模型的行为和输出方式，使得其表现逐渐接近教师模型；

损失函数：分两类

硬目标损失：学生模型的输出与训练数据的真实标签进行比较（标准分类损失）；
软目标损失：学生模型的输出与教师模型的输出概率分布进行比较（Kullback-Leibler 散度等），从而让学生模型的输出更接近教师模型；

软目标说明：教师模型输出 [0.7, 0.2, 0.1]，表示类别 A 的概率为 0.7，类别 B 的概率为 0.2，类别 C 的概率为 0.1，如果是硬目标就直接选择类别 A，但如果是软目标，学生模型输出的概率分布为 [0.6, 0.3, 0.1]，KL 散度会计算这两个概率分布之间的差异。

微调训练：通过反复迭代，学生模型逐渐在性能上逼近教师模型，同时保持轻量化优势；

蒸馏的好处：

提升效率：相比于大模型，小模型在推理速度和内存使用上有显著的提升，适合资源有限的场景（如移动设备、边缘计算等）。
保留性能：尽管模型变小，但通过蒸馏可以保留大部分的模型性能，保证输出的质量和准确性不会显著下降。
应用灵活：模型蒸馏可以应用于不同任务和模型架构，特别适合像 GPT 类的大模型在性能、响应时间要求高的环境中使用。

2019 年 10 月的 DistilBERT 模型就是 BERT 的精炼版，速度提高了 60%，内存减少了 40%，但仍然保留了 BERT 97% 的性能；

temperature、top_p、top_k

在生成模型中，temperature、top_p 和 top_k 是控制生成文本随机性和多样性的参数：

Temperature：调整输出的分布平滑度。较低的温度（<1）使得模型输出更确定性，倾向于选择高概率的词；较高的温度（>1）增加随机性，使输出更多样化。

Top-p（Nucleus Sampling）：从累积概率达到 p 的词中采样。例如，设置 top_p=0.9，模型会考虑所有使累积概率达到 90% 的词，只有这些词会被选中，从而保证生成的文本既丰富又合理。

Top-k：限制可选词汇的数量，只考虑概率最高的 k 个词进行采样。这样可以减少低概率词对生成结果的影响。

这三者的结合可以实现更灵活的文本生成，适应不同的应用需求。

大模型幻觉

大模型幻觉主要有哪些：

荒谬回复、违背事实：例如人类生活在火星
上下文自相矛盾
答非所问

大模型为什么会出现幻觉：

数据质量：训练数据包含错误、偏见、不一致信息，模型可能会学习并放大这些问题；
训练过程：预训练或者微调时候，过分拟合了训练数据中的异常值；
生成过程：提示词设计不当，或模型过小、模型有缺陷、输出长度太短；

如何解决、规避大模型幻觉问题：主要就是限定回答的范围。

根据权威信息回复；
根据企业文档回复；
连接数据库信息；
配合知识图谱：向量数据库会弱化对象之间的关系，所以与向量文本互补使用；

大模型训练中梯度消失和梯度爆炸的问题

（1）梯度消失

通常发生在深层网络中，使用传统激活函数（如 Sigmoid、Tanh）时。

梯度在反向传播时通过网络层逐渐减小，最终到达较低的层时，梯度值接近零，导致模型的学习能力受限。

激活函数使用 ReLU 及其变种（Leaky ReLU，ELU）：ReLU 激活函数通过将负值截断为零，避免了 Sigmoid 或 Tanh 函数的饱和区，能够有效地防止梯度消失。
权重初始化技巧：Xavier 初始化适用于使用 Sigmoid 或 Tanh 等激活函数的网络，能够确保每一层的输出方差保持稳定，减少梯度消失。
He 初始化：适用于 ReLU 和其变种，可以有效地解决梯度消失问题，因为它考虑了 ReLU 的稀疏性，保持较大的初始权重。
批归一化
残差连接

（2）梯度爆炸

导致参数更新过大，甚至溢出。梯度爆炸会导致模型训练不稳定，甚至导致 NaN 值。

梯度裁剪：在梯度的大小超过某个预设阈值时，将其裁剪到该阈值，例如 L2 范数。
权重初始化技巧：适当的权重初始化方法（如 He 初始化或 Xavier 初始化）可以避免网络权重在训练初期过大，降低梯度爆炸的风险。
更小的学习率：梯度爆炸可能是由于学习率设置过大导致的。通过减小学习率，可以减缓权重更新的步伐，避免梯度过大导致的更新失控。
自适应优化算法：Adam、RMSprop 等自适应优化器，它们通过对梯度的自适应调整（例如使用梯度的平方均值）来缓解梯度爆炸问题。这些优化器能够动态调整每个参数的学习率，有效避免了梯度爆炸的情况。
批归一化

评估大模型的性能有哪些常用的评价指标

分类任务：

准确率 Accuracy：分类正确的样本比例，适用于类别分布较为均匀的任务
精确率 Precision：针对正类预测的准确性，适用于类别不平衡或对假阳性敏感的场景
召回率 Recall：针对正类样本的识别能力，对于错过正类样本的惩罚较为重要的任务，召回率尤为重要
F1 值：精确率和召回率的调和平均，适合于精确率和召回率需要平衡的场景
AUC-ROC：通过计算 ROC 曲线下的面积，评估模型在不同阈值下的表现。AUC 值越大，模型越好
混淆矩阵：可视化分类结果，帮助分析模型的误分类情况，包括假阳性（FP）、假阴性（FN）、真阳性（TP）和真阴性（TN）等

回归任务：

均方误差 MSE：预测值与真实值差异的平方和的平均值，适用于衡量回归任务中的预测精度。
均方根误差 RMSE：MSE 的平方根，保留了与原始数据相同的量纲，便于直观比较
平均绝对误差（MAE，Mean Absolute Error）：预测值与真实值之间绝对差的平均值
R² 值（决定系数）：评估回归模型的拟合优度，表示模型预测值与真实值的方差比。值越接近 1，模型越好

生成任务：

BLEU：用于评估机器翻译、文本生成等任务的自动评估指标，通过比较生成文本与参考文本之间的 n-gram 重合度。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：评估文本生成质量，特别是召回率，在摘要生成等任务中常用。
Perplexity：通常用于评估语言模型，衡量模型在生成文本时的“困惑”程度。较低的困惑值表示模型较好

多模态任务：

相似性度量（Cosine Similarity, Euclidean Distance）：用于评估不同模态之间（例如，文本和图像）的相似性，常用于图像-文本匹配任务
Top-k Accuracy：用于检索任务，如从一组候选结果中找到正确答案。Top-k 准确率衡量模型在前 k 个候选中是否包含正确答案。

微调过程通用能力下降该怎么解决？

如下：

知识蒸馏：确保新任务学习不会丢失原任务的知识。
冻结部分层：冻结模型底层，仅微调高层（全连接或输出层）。避免模型在微调时丢失底层的通用特征
使用正则化：减少过拟合并控制模型复杂度，保持通用性
逐步微调：在微调过程中逐步调整网络，先微调少量层，再逐步解冻其他层并进行微调。这样可以确保模型逐步适应新任务，同时不至于立即遗忘原始知识
多任务学习：同时进行多个任务的训练，确保模型在多个任务之间共享知识，并且在学习新任务的同时不忘记旧任务

为什么现在的大模型大多是 decoder-only 架构？

首先要知道 transformer 架构是有两部分组成：编码器和解码器。

仅使用编码器：也叫自编码模型，注意力层都可以访问初始句子中的所有单词，适用于需要理解输入的任务，例如句子分类、命名实体识别。代表有 BERT；
仅使用解码器：也叫自回归模型，注意力层只能访问句子中位于该单词之前的单词，适用于文本生成等任务。代表有：GPT；
同时使用编码器和解码器：适用于有输入的生成任务，例如翻译或摘要。代表有：BART、T5；

那为什么仅使用解码器的自回归模型比较流行呢？

生成任务的优势：自回归模型非常适合生成任务，如文本生成、对话生成、翻译，能高效地生成流畅且连贯的长文本。
高效性：与 encoder-decoder 模型相比，decoder-only 结构在生成任务中计算更为高效，因为它只需要关注生成阶段的处理，不需要同时处理编码和解码两个阶段。
数据好收集：大多数 decoder-only 模型都采用自监督学习，使用大量未标注的文本数据进行预训练

什么是 LLMs 复读机问题，该如何解决？

LLMs 复读机问题的主要表现：

内容重复：在长时间生成文本时，模型可能会不自觉地重复相同的句子或段落，缺乏多样性。
无意义回答（Hallucinations）：有时模型会生成看似合理但实际上是完全错误或不真实的内容。这些内容虽然语法上正确，但在事实性上可能没有依据，或是完全虚构的。
缺乏上下文理解：当模型生成的文本超出它的上下文理解时，可能会“回归”到之前已经生成的文本内容，缺乏连贯性。
高重复性回答：尤其是在面对需要进行多轮推理的任务时，模型会倾向于返回前几轮的内容，而没有进行新的推理或补充信息

LLMs 复读机问题产生的原因：

输入和目标输出的相似性：模型往往是根据大量训练数据生成与输入文本最相关的输出，某些情况下会“过度拟合”到已见过的类似表达方式，导致重复。
缺乏记忆：在当前的大多数 LLMs 中，模型并不具备长期记忆能力，因此它无法记住早期的上下文，并在之后的生成过程中不断重复已知的内容。
过度优化生成概率：生成文本的过程通常是通过最大化每个词的条件概率来进行的。这意味着，模型更倾向于生成它认为最可能的下一个词，而不是生成新的或多样的内容。
训练数据的偏差：训练数据中可能存在某些模式或结构导致模型在特定上下文下倾向于重复特定表达或结构

如何解决 LLMs 复读机问题：

引入动态上下文窗口：通过优化模型的上下文窗口，使得模型在生成文本时能够更好地理解前文内容，避免重复
改进训练过程：训练时，加入数据增强或正则化技术，帮助模型避免过度拟合某些特定的回答模式。
外部知识库辅助：引入外部知识库（如知识图谱、数据库等）来增强模型的推理能力，避免生成重复的或空洞的答案。
历史对话的引导
温度调节
去重策略

进行 SFT 微调训练时候，基座模型是选用 chat 还是 base？

基座模型的选择取决于你想要微调的目标和任务类型：

选择 Base 模型：适用于更通用的微调任务，特别是当任务并非专注于对话时，Base 模型能为你提供更多灵活性
选择 Chat 模型：适用于对话任务，Chat 模型已经为对话生成进行了优化，微调后会在对话场景中表现更好

03 数据篇

如何解决人工产生的偏好数据集成本高，很难量产问题？

如下：

使用开源数据集，或者数据交换平台
使用自动化工具生成：比如数据增强（图片的旋转、裁剪、翻转等，文本的同义词替换、语法变换、文本缩写等），数据合成（图片的 GAN、VAE，文本的 GPT、T5 合成新数据）
半监督学习：用少量标注数据和大量未标注数据进行训练。
专家系统、规则引擎：通过设定规则和条件自动生成部分标注数据。

（1）数据并行（Data Parallelism）

让同一个模型的不同实例在不同设备上并行处理不同的数据子集，而模型的参数在这些设备之间保持同步。

一般有如下几个步骤：

数据划分：在每个训练迭代中，将训练数据分为多个小批次（mini-batch），并将每个小批次分配给不同的设备（GPU/TPU）。

例如，如果有 4 个GPU，batch_size=64，那么每个 GPU 将处理 64/4=16 个样本。

模型复制：每个 GPU 设备上都有一份完全相同的模型副本，且每个 GPU 设备只处理分配到的那部分数据，独立计算那部分数据的损失和梯度，进行反向传播。

梯度同步：各设备计算的梯度会通过梯度同步（通常通过 all-reduce 操作）进行聚合（如取平均值或求和），再将聚合后的梯度发送至每个 GPU 设备上。

数据并行常见的实现方法：

PyTorch DistributedDataParallel (DDP)：PyTorch 提供了 DistributedDataParallel 接口，自动处理数据切分、梯度同步和参数更新。DDP 是数据并行的标准实现。
Horovod：是由 Uber 开发的分布式训练框架，支持 TensorFlow、PyTorch 等。Horovod 基于 all-reduce 算法进行梯度同步，能够在多个 GPU 或多个节点上高效运行。
DeepSpeed：是微软开发的分布式深度学习库，支持大规模模型的训练，并提供了一系列优化手段，提升分布式数据并行的效率。

数据并行存在的挑战：