当前位置: 首页 > news >正文

算法常见八股问题整理

1.极大似然估计和交叉熵有什么关系

在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。

交叉熵损失本质上就是对数似然的负数形式,使用交叉熵损失来进行优化时,我们可以简化很多数学表达和推导步骤。

2.正则化

正则化(Regularization)是机器学习和深度学习中的一种技术,用于防止模型过拟合(overfitting)。在训练模型时,如果模型太复杂,它可能会过度拟合训练数据中的噪声,而不仅仅是学习到数据的潜在规律。正则化通过在模型的损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力,使其在新的、未见过的数据上表现更好。

原理:在损失函数上加上某些规则(限制),缩小解空间,从而减少求出过拟合解的可能性

因此,其实在机器学习中,正则化往往是在损失函数上增加参数绝对值和(L1正则化)或增加参数平方和(L2正则化)。

将Loss拆分成两部分,一部分是正常计算的损失值,我们要寻找它的最小值,是个凹函数。另一部分是个正则化项,我们也要寻找它的最小值,它也是个凹函数。

假设待优化的模型参数w只有两个维度,可以看出来正则化项 z=|w1|+|w2| 或z=w1²+w2²等如下所示:

因为我们要寻找最终的最小值,两个凹函数的相加的最小值往往是二者相切的点。

总结

  • L1 正则化(Lasso)适用于特征选择和当你认为数据中有冗余或不重要的特征时,可以去除这些特征(即产生稀疏模型)。
  • L2 正则化(Ridge)适用于当你希望模型平滑、避免过拟合并且不需要对特征进行选择时。它更适合特征之间有相关性的情况,能够平衡每个特征的影响。

3.位置编码

3.1绝对位置编码

3.2旋转位置编码

4.LayerNorm和BatchNorm区别

RMSNorm(LLama)

相关文章:

  • 车载DoIP协议 --- TCP详细解析
  • 洛谷B3636
  • 关于GeoPandas库
  • CMOS图像传感器——偏振光图像传感器技术
  • HarmonyOS Design 介绍
  • 实验题目:SQL 数据更新、视图
  • Mybatis相关知识(学习自用)
  • Linux、Docker、Redis常见面试题
  • PLC通讯
  • 关于雷龙CS SD NAND(贴片式TF卡)的测评体验
  • 安装 redis 5.0.14 版本
  • 9.三重积分、线面积分、场论初步(基础知识)(二)
  • java实现二维码图片生成和编解码
  • Python开发Django面试题及参考答案
  • 重学SpringBoot3-WebClient配置与使用详解
  • conda环境中运行“python --version“所得的版本与环境中的python版本不一致----deepseek并非全能
  • Python爬虫基础重要数据类型
  • Vulnhun靶机-kioptix level 4-sql注入万能密码拿到权限ssh连接利用mysql-udf漏洞提权
  • Docker Network
  • std::thread的同步机制
  • 哪个网站有高清图片做ppt/百度seo排名优化公司
  • 廊坊哪里有做网站建设的/阿里指数官方网站
  • 网站自助建站/微信软文范例大全100
  • 网站开发培训哪个好/百度推广是什么工作
  • 淘宝属于什么类型的网站/石家庄网站建设seo公司
  • 东莞网站建设案例/建站推广