当前位置：首页 > news >正文

算法常见八股问题整理

news 2025/11/10 8:07:50

1.极大似然估计和交叉熵有什么关系

在分类问题中，当我们使用softmax函数作为输出层时，最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说，在多分类情况下，最大化该样本的对数似然等价于最小化该样本的交叉熵损失。

交叉熵损失本质上就是对数似然的负数形式，使用交叉熵损失来进行优化时，我们可以简化很多数学表达和推导步骤。

2.正则化

正则化（Regularization）是机器学习和深度学习中的一种技术，用于防止模型过拟合（overfitting）。在训练模型时，如果模型太复杂，它可能会过度拟合训练数据中的噪声，而不仅仅是学习到数据的潜在规律。正则化通过在模型的损失函数中增加一个惩罚项，限制模型的复杂度，从而提高模型的泛化能力，使其在新的、未见过的数据上表现更好。

原理：在损失函数上加上某些规则（限制），缩小解空间，从而减少求出过拟合解的可能性

因此，其实在机器学习中，正则化往往是在损失函数上增加参数绝对值和（L1正则化）或增加参数平方和（L2正则化）。

将Loss拆分成两部分，一部分是正常计算的损失值，我们要寻找它的最小值，是个凹函数。另一部分是个正则化项，我们也要寻找它的最小值，它也是个凹函数。

假设待优化的模型参数w只有两个维度，可以看出来正则化项 z=|w1|+|w2| 或z=w1²+w2²等如下所示：

因为我们要寻找最终的最小值，两个凹函数的相加的最小值往往是二者相切的点。

总结

L1 正则化（Lasso）适用于特征选择和当你认为数据中有冗余或不重要的特征时，可以去除这些特征（即产生稀疏模型）。
L2 正则化（Ridge）适用于当你希望模型平滑、避免过拟合并且不需要对特征进行选择时。它更适合特征之间有相关性的情况，能够平衡每个特征的影响。

3.位置编码

3.1绝对位置编码

3.2旋转位置编码

4.LayerNorm和BatchNorm区别

RMSNorm（LLama）

http://www.dtcms.com/a/34120.html

相关文章：

车载DoIP协议 --- TCP详细解析

洛谷B3636

关于GeoPandas库

CMOS图像传感器——偏振光图像传感器技术

HarmonyOS Design 介绍

实验题目：SQL 数据更新、视图

Mybatis相关知识（学习自用）

Linux、Docker、Redis常见面试题

PLC通讯

关于雷龙CS SD NAND(贴片式TF卡)的测评体验

安装 redis 5.0.14 版本

9.三重积分、线面积分、场论初步（基础知识）(二)

java实现二维码图片生成和编解码

Python开发Django面试题及参考答案

重学SpringBoot3-WebClient配置与使用详解

conda环境中运行“python --version“所得的版本与环境中的python版本不一致----deepseek并非全能

Python爬虫基础重要数据类型

Vulnhun靶机-kioptix level 4-sql注入万能密码拿到权限ssh连接利用mysql-udf漏洞提权

Docker Network

std::thread的同步机制

Android构建系统 - 01 环境准备

Python基于flask的智慧交通可视化，大数据智慧交通数据可视化系统

DINOv2 + yolov8 + opencv 检测卡车的可拉拽雨覆是否完全覆盖

Open WebUI中的Pipelines是什么

go:运行第一个go语言程序

luci界面开发中的MVC架构——LuCI介绍（二）

精准删除：掌握SQL中的DELETE语句

Java实现斗地主-做牌以及对牌排序

STM32 SPI Flash读写实验手册

KubeKey一键安装部署k8s集群和KubeSphere详细教程