深度学习笔试选择题:题组1
题目(共5小题)
1. (多选)关于BatchNorm和LayerNorm的区别,以下说法正确的是
A. BatchNorm的归一化依赖批次数据统计,LayerNorm的归一化仅依赖单个样本
B. BatchNorm在训练和推理时行为不同(需维护滑动均值),LayerNorm的行为始终一致
C. LayerNorm对硬件资源要求更低,因为它无需存储批次统计量
D. BatchNorm更适合处理变长席列(如文本数据),LayerNorm更适合固定尺寸的图像数据
2. (单选)训练LLM时,以下哪种技术不能缓解梯度不稳定问题?
A. 梯度裁剪(Gradient Clipping)
B. 权重归一化(Weight Normalization)
C. 残差连接(Residual Connection)
D. 激活函数改用GELU
3. (单选)卷积神经网络(CNN)中,池化层(Pooling)的主要作用是
A. 减少空间维度并保留关键特征
B. 直接输出分类结果
C. 替代全连接层
D. 增加模型参数量
4. (单选)以下哪种方法不能有效解决语音识别中的方言/口音问题?
A. 使用对抗学习(Adversarial Learning)分离说话人特征与内容特征
B. 对输入语音进行全局均值归一化(CMVN)
C. 采用多任务学习联合训练方言分类器
D. 在训练数据中增加多方言语料
5.(单选)在模式识别中,ROC曲线被经常用来评价不同判别方法的性能。下列选项中,关于ROC曲线及相关概念说法正确的是
A. ROC曲线下的面积可能会经常出现小于0.5的情况
B. 假阳率是指在所有预测为负的样本中,预测结果为正的比例
C. ROC曲线也可以用来选择与分类有关的特征
D. ROC曲线和P-R曲线在正负样本分布发生变化时都容易产生较大的波动
解答
1.【答案】ABC
【解析】
选项A:正确。BatchNorm的归一化依赖于整个批次数据的统计(均值和方差),而LayerNorm的归一化仅依赖于单个样本自身的统计,不依赖批次大小。
选项B:正确。BatchNorm在训练时需要计算批次统计并维护滑动均值/方差,在推理时使用这些滑动统计量,因此行为不同;LayerNorm在训练和推理时都使用当前样本的统计量,行为一致。
选项C:正确。LayerNorm不需要存储批次统计量或滑动平均,因此对内存等硬件资源要求相对较低;而BatchNorm需要存储滑动平均统计量,增加了内存开销。
选项D:错误。实际上,BatchNorm更适合固定尺寸的图像数据(因为批次统计要求固定尺寸),而LayerNorm更适合处理变长序列(如文本数据),因为它对每个样本独立归一化,不受序列长度变化影响。
因此,正确的选项是A、B和C。
2.【答案】B
【解析】
A. 梯度裁剪(Gradient Clipping):直接通过裁剪梯度大小来防止梯度爆炸,能有效缓解梯度不稳定问题。
B. 权重归一化(Weight Normalization):这是一种权重参数化技术,通过分解权重方向和大小时归一化,主要用于加速收敛和改善训练稳定性,但并非专门针对梯度不稳定问题。在LLM训练中,更常用的是层归一化(Layer Normalization),权重归一化效果有限,且可能无法直接缓解梯度消失或爆炸。
C. 残差连接(Residual Connection):通过跳过连接允许梯度直接流动,有效减轻梯度消失问题,能缓解梯度不稳定。
D. 激活函数改用GELU:GELU激活函数具有平滑性,在负区域有非零梯度,能缓解梯度消失问题,从而改善梯度流动。
因此,权重归一化(Weight Normalization) 不能有效缓解梯度不稳定问题,是正确答案。
3.【答案】A
【解析】卷积神经网络(CNN)中,池化层(Pooling Layer)的核心作用如下:
降维(减少空间尺寸):通过池化操作(如最大池化或平均池化)对特征图进行下采样,降低其宽度和高度,从而减少计算量和内存消耗。
保留关键特征:池化会提取局部区域中最显著的特征(如最大池化保留最活跃的特征),增强模型对位置变化的鲁棒性(如平移不变性)。
抑制过拟合:通过减少参数数量,降低模型复杂度,有助于防止过拟合。
为什么其他选项错误:
B. 直接输出分类结果:分类任务通常由全连接层和Softmax层完成,池化层仅用于特征提取和降维。
C. 替代全连接层:池化层和全连接层功能不同,无法相互替代。全连接层用于整合全局信息并输出分类结果。
D. 增加模型参数量:池化层本身没有可学习参数,且会降低特征图尺寸,反而减少后续层的参数量。
因此,选项A正确描述了池化层的主要作用。
4.【答案】B
【解析】
选项A:使用对抗学习(Adversarial Learning)分离说话人特征与内容特征
这种方法能有效减少口音影响,通过对抗训练使模型专注于语音内容,而不是说话人特征(如口音),因此能改善方言识别。
选项B:对输入语音进行全局均值归一化(CMVN)
CMVN是一种语音预处理技术,主要用于标准化特征维度,减少信道噪声和说话人声学变化(如音量、音调),但并不能直接处理方言或口音的语言学差异。它只是统计归一化,无法捕捉方言特有的音素、语法或词汇变化,因此不能有效解决方言/口音问题。
选项C:采用多任务学习联合训练方言分类器
多任务学习能同时优化语音识别和方言分类任务,帮助模型学习方言不变的特征,从而提高对口音的鲁棒性,这是一种有效方法。
选项D:在训练数据中增加多方言语料
增加方言数据是最直接有效的方法,能让模型暴露于多样口音,提升泛化能力,因此能有效解决方言问题。
因此,选项B(对输入语音进行全局均值归一化)不能有效解决语音识别中的方言/口音问题。
5.【答案】C
【解析】
选项A:ROC曲线下的面积(AUC)可能会经常出现小于0.5的情况。实际上,AUC小于0.5表示分类器性能比随机猜测还差,但这种情况并不常见,通常可以通过反转预测使AUC大于0.5。因此,AUC“经常”小于0.5的说法不正确。
选项B:假阳率(False Positive Rate, FPR)的定义是实际为负的样本中被错误预测为正的比例,即FPR = FP / (FP + TN)。选项B表述为“在所有预测为负的样本中,预测结果为正的比例”,这是错误的,因为预测为负的样本中不可能出现预测为正的情况。
选项C:ROC曲线也可以用来选择与分类有关的特征。虽然ROC曲线主要用于评估分类器性能,但在实践中,通过比较不同特征或特征子集的AUC值,可以间接进行特征选择。例如,在生物信息学或机器学习中,AUC常用于评估特征重要性。因此,这个说法正确。
选项D:ROC曲线和P-R曲线在正负样本分布发生变化时都容易产生较大的波动。实际上,ROC曲线对样本分布不敏感,因为TPR和FPR都是比例值,不受类别不平衡影响;而P-R曲线对样本分布敏感,尤其当正样本稀少时。因此,这个说法错误。