当前位置: 首页 > news >正文

深度学习笔试选择题:题组1

题目(共5小题)

1. (多选)关于BatchNorm和LayerNorm的区别,以下说法正确的是

        A. BatchNorm的归一化依赖批次数据统计,LayerNorm的归一化仅依赖单个样本

        B. BatchNorm在训练和推理时行为不同(需维护滑动均值),LayerNorm的行为始终一致

        C. LayerNorm对硬件资源要求更低,因为它无需存储批次统计量

        D. BatchNorm更适合处理变长席列(如文本数据),LayerNorm更适合固定尺寸的图像数据

2. (单选)训练LLM时,以下哪种技术不能缓解梯度不稳定问题?

        A. 梯度裁剪(Gradient Clipping)

        B. 权重归一化(Weight Normalization)

        C. 残差连接(Residual Connection)

        D. 激活函数改用GELU

3. (单选)卷积神经网络(CNN)中,池化层(Pooling)的主要作用是

        A. 减少空间维度并保留关键特征

        B. 直接输出分类结果

        C. 替代全连接层

        D. 增加模型参数量

4. (单选)以下哪种方法不能有效解决语音识别中的方言/口音问题?

        A. 使用对抗学习(Adversarial Learning)分离说话人特征与内容特征

        B. 对输入语音进行全局均值归一化(CMVN)

        C. 采用多任务学习联合训练方言分类器

        D. 在训练数据中增加多方言语料

5.(单选)在模式识别中,ROC曲线被经常用来评价不同判别方法的性能。下列选项中,关于ROC曲线及相关概念说法正确的是

        A. ROC曲线下的面积可能会经常出现小于0.5的情况

        B. 假阳率是指在所有预测为负的样本中,预测结果为正的比例

        C. ROC曲线也可以用来选择与分类有关的特征

        D. ROC曲线和P-R曲线在正负样本分布发生变化时都容易产生较大的波动

解答

1.【答案】ABC

【解析】

  • 选项A​​:正确。BatchNorm的归一化依赖于整个批次数据的统计(均值和方差),而LayerNorm的归一化仅依赖于单个样本自身的统计,不依赖批次大小。

  • ​选项B​​:正确。BatchNorm在训练时需要计算批次统计并维护滑动均值/方差,在推理时使用这些滑动统计量,因此行为不同;LayerNorm在训练和推理时都使用当前样本的统计量,行为一致。

  • ​选项C​​:正确。LayerNorm不需要存储批次统计量或滑动平均,因此对内存等硬件资源要求相对较低;而BatchNorm需要存储滑动平均统计量,增加了内存开销。

  • ​选项D​​:错误。实际上,BatchNorm更适合固定尺寸的图像数据(因为批次统计要求固定尺寸),而LayerNorm更适合处理变长序列(如文本数据),因为它对每个样本独立归一化,不受序列长度变化影响。

因此,正确的选项是A、B和C。

2.【答案】B

【解析】

  • A. 梯度裁剪(Gradient Clipping)​​:直接通过裁剪梯度大小来防止梯度爆炸,能有效缓解梯度不稳定问题。

  • ​B. 权重归一化(Weight Normalization)​​:这是一种权重参数化技术,通过分解权重方向和大小时归一化,主要用于加速收敛和改善训练稳定性,但并非专门针对梯度不稳定问题。在LLM训练中,更常用的是层归一化(Layer Normalization),权重归一化效果有限,且可能无法直接缓解梯度消失或爆炸。

  • ​C. 残差连接(Residual Connection)​​:通过跳过连接允许梯度直接流动,有效减轻梯度消失问题,能缓解梯度不稳定。

  • ​D. 激活函数改用GELU​​:GELU激活函数具有平滑性,在负区域有非零梯度,能缓解梯度消失问题,从而改善梯度流动。

因此,​​权重归一化(Weight Normalization)​​ 不能有效缓解梯度不稳定问题,是正确答案。

3.【答案】A

【解析】卷积神经网络(CNN)中,池化层(Pooling Layer)的核心作用如下:

  1. ​降维(减少空间尺寸)​​:通过池化操作(如最大池化或平均池化)对特征图进行下采样,降低其宽度和高度,从而减少计算量和内存消耗。

  2. ​保留关键特征​​:池化会提取局部区域中最显著的特征(如最大池化保留最活跃的特征),增强模型对位置变化的鲁棒性(如平移不变性)。

  3. ​抑制过拟合​​:通过减少参数数量,降低模型复杂度,有助于防止过拟合。

为什么其他选项错误:

  • ​B. 直接输出分类结果​​:分类任务通常由全连接层和Softmax层完成,池化层仅用于特征提取和降维。

  • ​C. 替代全连接层​​:池化层和全连接层功能不同,无法相互替代。全连接层用于整合全局信息并输出分类结果。

  • ​D. 增加模型参数量​​:池化层本身没有可学习参数,且会降低特征图尺寸,反而减少后续层的参数量。

因此,选项A正确描述了池化层的主要作用。

4.【答案】B

【解析】

  • 选项A:使用对抗学习(Adversarial Learning)分离说话人特征与内容特征​

    这种方法能有效减少口音影响,通过对抗训练使模型专注于语音内容,而不是说话人特征(如口音),因此能改善方言识别。

  • ​选项B:对输入语音进行全局均值归一化(CMVN)​

    CMVN是一种语音预处理技术,主要用于标准化特征维度,减少信道噪声和说话人声学变化(如音量、音调),但并不能直接处理方言或口音的语言学差异。它只是统计归一化,无法捕捉方言特有的音素、语法或词汇变化,因此不能有效解决方言/口音问题。

  • ​选项C:采用多任务学习联合训练方言分类器​

    多任务学习能同时优化语音识别和方言分类任务,帮助模型学习方言不变的特征,从而提高对口音的鲁棒性,这是一种有效方法。

  • ​选项D:在训练数据中增加多方言语料​

    增加方言数据是最直接有效的方法,能让模型暴露于多样口音,提升泛化能力,因此能有效解决方言问题。

因此,选项B(对输入语音进行全局均值归一化)不能有效解决语音识别中的方言/口音问题。

5.【答案】C

【解析】

  • 选项A​​:ROC曲线下的面积(AUC)可能会经常出现小于0.5的情况。实际上,AUC小于0.5表示分类器性能比随机猜测还差,但这种情况并不常见,通常可以通过反转预测使AUC大于0.5。因此,AUC“经常”小于0.5的说法不正确。

  • ​选项B​​:假阳率(False Positive Rate, FPR)的定义是实际为负的样本中被错误预测为正的比例,即FPR = FP / (FP + TN)。选项B表述为“在所有预测为负的样本中,预测结果为正的比例”,这是错误的,因为预测为负的样本中不可能出现预测为正的情况。

  • ​选项C​​:ROC曲线也可以用来选择与分类有关的特征。虽然ROC曲线主要用于评估分类器性能,但在实践中,通过比较不同特征或特征子集的AUC值,可以间接进行特征选择。例如,在生物信息学或机器学习中,AUC常用于评估特征重要性。因此,这个说法正确。

  • ​选项D​​:ROC曲线和P-R曲线在正负样本分布发生变化时都容易产生较大的波动。实际上,ROC曲线对样本分布不敏感,因为TPR和FPR都是比例值,不受类别不平衡影响;而P-R曲线对样本分布敏感,尤其当正样本稀少时。因此,这个说法错误。

http://www.dtcms.com/a/394794.html

相关文章:

  • 统一配置管理根据不同域名展现不同信息或相近信息 Vue3类单例模式封装
  • 人工智能深度学习——循环神经网络(RNN)
  • 单例模式指南:全局资源的安全访问
  • 容器化 Tomcat 应用程序
  • Vue Router【前端】
  • 数据结构——受限线性表之栈
  • 数据结构(1)------ 三要素
  • BaaS(Backend as a Service)概述、平台、项目
  • 区间dp,数据结构优化dp等5种dp,各种trick深度讲解
  • 数据结构笔试选择题:题组1
  • 前端基础:从0到1实现简单网页效果(一)
  • 数据结构|图论:从数据结构到工程实践的核心引擎
  • AI赋能个人效能提升:实战演练工作规划、项目复盘与学习发展
  • 7. Linux RAID 存储技术
  • iOS 上架 App 费用详解 苹果应用发布成本、App Store 上架收费标准、开发者账号与审核实战经验
  • kafka 2.12_3.9.1 版本修复 Apache Commons BeanUtils 访问控制错误漏洞(CVE-2025-48734)
  • 二分查找经典——力扣153.寻找旋转排序数组中的最小值
  • 离散数学之命题逻辑
  • 【Linux命令从入门到精通系列指南】ping 命令详解:网络连通性诊断的终极工具
  • 游戏UI告别“贴图”时代:用Adobe XD构建“活”的设计系统
  • NXP - 用MCUXpresso IDE导入lpcopen_2_10_lpcxpresso_nxp_lpcxpresso_1769.zip中的工程
  • ✅ Python+Django租房推荐系统 双协同过滤+Echarts可视化 租房系统 推荐算法 全栈开发(建议收藏)✅
  • Django入门-3.公共视图
  • 【 设计模式 | 结构型模式 代理模式 】
  • 小杰机器学习高级(five)——分类算法的评估标准
  • IS-IS 中同时收到 L1 和 L2 的 LSP 时,是否优选 L1
  • 【开源】基于STM32的智能车尾灯
  • 电子电气架构 --- 软件开发与产品系统集成流程(下)
  • Ubuntu系统目录架构是怎么样的
  • 自动驾驶仿真之“场景交互”技术研究