当前位置: 首页 > news >正文

最大似然估计:损失函数的底层数学原理

引言

当你第一次看到线性回归时,你是否注意到了作为参数优化关键的损失函数(均方损失),你是否能够理解它的本质和由来。其实,在我第一次接触时,我是感到有些惊讶的,然后试着去强行理解它,而没有想到它的背后其实有一个数学理论作为支撑——最大似然估计。

最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学和机器学习中用于估计模型参数的方法。其核心思想是:在已知观测数据的情况下,寻找使得观测数据出现概率最大的模型参数值。(核心在于概率最大)

似然函数

我们的目的就是把上面的似然函数变成最大。

下面我们将以均方损失和交叉熵损失作为案例进行说明。

均方损失(MSE):对应 “观测噪声服从高斯分布” 的 MLE

概率假设:模型预测误差服从高斯分布

theta是参数,也就是均值和方差。

构建对数似然函数

最大化对数似然 → 最小化 MSE

结论

均方损失是 “假设回归任务的观测噪声服从高斯分布” 时,最大似然估计的等价损失函数(即负对数似然)。

交叉熵损失:对应 “类别标签服从伯努利 / 多项式分布” 的 MLE

交叉熵损失是分类任务(输出为离散类别概率,如判断图像是猫 / 狗 / 鸟)中最常用的损失函数,分为二分类多分类两种形式:

二分类为例(多分类同理,只需将伯努利分布扩展为多项式分布):

概率假设:类别标签服从伯努利分布

这个函数设计地很巧妙。

构建对数似然函数

最大化对数似然 → 最小化交叉熵

多分类的扩展

结论

交叉熵损失是 “假设分类任务的类别标签服从伯努利分布(二分类)或多项式分布(多分类)” 时,最大似然估计的等价损失函数(即负对数似然)。

核心对比:MSE 与交叉熵的 MLE 本质差异

两种损失函数的根本区别源于对 “标签生成过程” 的概率假设不同,而这种假设又由任务类型(回归 / 分类)决定:

损失函数适用任务背后的概率分布假设MLE 关联(等价性)
均方损失(MSE)回归(连续输出)观测噪声~高斯分布最小化 MSE = 最大化高斯分布下的对数似然
交叉熵损失(CE)分类(离散类别)类别标签~伯努利 / 多项式分布最小化 CE = 最大化伯努利 / 多项式分布下的对数似然

怎么说呢?感觉还是很神奇的,损失函数竟然就这么水灵灵的被推导出来了。


文章转载自:

http://40Aqd2zC.jxdhc.cn
http://gAYwjIZC.jxdhc.cn
http://WhFcmAuL.jxdhc.cn
http://pMOvJA9v.jxdhc.cn
http://TG97HyHg.jxdhc.cn
http://fTpZcxoW.jxdhc.cn
http://wXUzA4W0.jxdhc.cn
http://1MjvzBvf.jxdhc.cn
http://FujIaRPk.jxdhc.cn
http://EVxXFV6v.jxdhc.cn
http://v21uDHOk.jxdhc.cn
http://ueubokfu.jxdhc.cn
http://vr8azI06.jxdhc.cn
http://mlnAyl8L.jxdhc.cn
http://2bO8Dw5m.jxdhc.cn
http://t59ROEiK.jxdhc.cn
http://hVOErGgz.jxdhc.cn
http://2FfpnY0y.jxdhc.cn
http://b03yJKJn.jxdhc.cn
http://vF0GFp0I.jxdhc.cn
http://lTjZoMys.jxdhc.cn
http://JFenVT7v.jxdhc.cn
http://CGlX8efj.jxdhc.cn
http://T0euveJR.jxdhc.cn
http://FHbqBsWp.jxdhc.cn
http://YdaIBCXi.jxdhc.cn
http://YwHR4oyk.jxdhc.cn
http://avfYokXD.jxdhc.cn
http://NJyVmFut.jxdhc.cn
http://LYuTFThx.jxdhc.cn
http://www.dtcms.com/a/370012.html

相关文章:

  • 今日分享:C++ -- list 容器
  • 报错:OverflowError: Python integer 4294967296 out of bounds for uint32
  • 贪心算法应用:蛋白质折叠问题详解
  • AI-调查研究-71-具身智能 案例分析:从ROS到Tesla Optimus的开源与商业化实践
  • 【嵌入式C语言】七
  • [数据结构] LinkedList
  • 【C++】引用的本质与高效应用
  • Date、BigDecimal类型值转换
  • 基于Node.js和Three.js的3D模型网页预览器
  • Scikit-learn Python机器学习 - 特征降维 压缩数据 - 特征提取 - 主成分分析 (PCA)
  • CSP-J/S IS COMING
  • GraphQL API 性能优化实战:在线编程作业平台指南
  • 【基础-判断】Background状态在UIAbility实例销毁时触发,可以在onDestroy()回调中进行系统资源的释放、数据的保存等操作。
  • PageHelper的使用及底层原理
  • 探寻卓越:高级RAG技术、架构与实践深度解析
  • 【51单片机】【protues仿真】基于51单片机PM2.5空气质量检测系统
  • AI工具深度测评与选型指南 - 图像生成与编辑类
  • RabbitMQ工作模式(下)
  • Custom SRP - Complex Maps
  • tp报错解决
  • MySQL MHA 高可用集群搭建
  • 《AI大模型应知应会100篇》第68篇:移动应用中的大模型功能开发 —— 用 React Native 打造你的语音笔记摘要 App
  • Mac Intel 芯片 Docker 一键部署 Neo4j 最新版本教程
  • 正态分布 - 正态分布的经验法则(68-95-99.7 法则)
  • 【操作系统-Day 25】死锁 (Deadlock):揭秘多线程编程的“终极杀手”
  • (二).net面试(static)
  • 为什么服务器有主备BMC?
  • Dotnet 项目手动部署到AWS 和Github action CICD 流程总结
  • (2)桌面云、并行计算、分布式、网格计算
  • Java中的死锁