当前位置: 首页 > news >正文

从高斯噪声的角度分析MAE和MSE

文章目录

  • 1. MAE与MSE的本质区别
  • 2. 高斯噪声下的统计特性
  • 3. MAE导致稀疏解的内在机制
  • 4. 对比总结

1. MAE与MSE的本质区别

MAE(Mean Absolute Error)和MSE(Mean Squared Error)是两种常用的损失函数,它们的数学形式决定了对误差的不同敏感程度:

  • MAEMAE=1n∑i=1n∣yi−y^i∣\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|MAE=n1i=1nyiy^i
  • MSEMSE=1n∑i=1n(yi−y^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2MSE=n1i=1n(yiy^i)2

从几何角度看,MSE等价于欧氏距离的平方,而MAE等价于曼哈顿距离。这导致MSE对离群点更加敏感,而MAE更具鲁棒性。

2. 高斯噪声下的统计特性

在噪声服从高斯分布 ϵ∼N(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)ϵN(0,σ2) 的假设下:

  1. MSE是最优损失函数
    MSE对应于高斯噪声下的最大似然估计(MLE)。此时,最小化MSE等价于最大化对数似然函数:
    arg⁡min⁡θ∑i=1n(yi−f(xi;θ))2⇔arg⁡max⁡θ∏i=1n12πσ2exp⁡(−(yi−f(xi;θ))22σ2)\arg\min_{\theta} \sum_{i=1}^{n} (y_i - f(x_i; \theta))^2 \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2}\right) argθmini=1n(yif(xi;θ))2argθmaxi=1n2πσ21exp(2σ2(yif(xi;θ))2)
    高斯分布的二次指数形式直接对应平方误差。

  2. MAE的统计假设
    MAE对应于噪声服从拉普拉斯分布时的MLE。拉普拉斯分布的概率密度函数为:
    p(ϵ)=12bexp⁡(−∣ϵ∣b)p(\epsilon) = \frac{1}{2b} \exp\left(-\frac{|\epsilon|}{b}\right) p(ϵ)=2b1exp(bϵ)

    arg⁡min⁡θ∑i=1n∣yi−f(xi;θ)∣⇔arg⁡max⁡θ∏i=1n12bexp⁡(−∣yi−f(xi;θ)∣b)\arg\min_{\theta} \sum_{i=1}^{n} |y_i - f(x_i; \theta)| \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{2b} \exp\left(-\frac{|y_i - f(x_i; \theta)|}{b}\right) argθmini=1nyif(xi;θ)argθmaxi=1n2b1exp(byif(xi;θ))
    此时,最小化MAE等价于最大化拉普拉斯分布下的对数似然。

3. MAE导致稀疏解的内在机制

MAE容易产生稀疏解的根本原因在于其梯度特性:

  1. MAE的梯度恒定
    MAE的梯度为:
    ∂MAE∂θ={+1,if yi−f(xi;θ)>0−1,if yi−f(xi;θ)<0undefined,if yi−f(xi;θ)=0\frac{\partial \text{MAE}}{\partial \theta} = \begin{cases} +1, & \text{if } y_i - f(x_i; \theta) > 0 \\ -1, & \text{if } y_i - f(x_i; \theta) < 0 \\ \text{undefined}, & \text{if } y_i - f(x_i; \theta) = 0 \end{cases} θMAE=+1,1,undefined,if yif(xi;θ)>0if yif(xi;θ)<0if yif(xi;θ)=0
    当参数接近零时,梯度仍保持恒定(±1),促使参数快速收敛到零。

  2. MSE的梯度衰减
    MSE的梯度为:
    ∂MSE∂θ=−2(yi−f(xi;θ))⋅∂f(xi;θ)∂θ\frac{\partial \text{MSE}}{\partial \theta} = -2(y_i - f(x_i; \theta)) \cdot \frac{\partial f(x_i; \theta)}{\partial \theta} θMSE=2(yif(xi;θ))θf(xi;θ)
    当误差接近零时,梯度趋近于零,导致参数更新变得非常缓慢,难以彻底消除小参数。

  3. 几何解释
    从优化角度看,MAE的等高线是菱形(在二维空间中),其顶点位于坐标轴上;而MSE的等高线是圆形。当损失函数的最小值靠近坐标轴时,MAE的等高线更容易与坐标轴相交,从而使某些参数被置零。更多可见 损失函数的等高线与参数置零的关系

    在这里插入图片描述

4. 对比总结

特性MSEMAE
对离群点敏感度高(平方放大误差)低(线性处理误差)
噪声分布假设高斯分布拉普拉斯分布
梯度特性梯度随误差减小而衰减梯度恒定(除零点外)
稀疏性不易产生稀疏解易产生稀疏解
优化稳定性平滑优化,数值稳定性好非光滑优化,可能需要特殊处理

在实际应用中,如果数据包含较多离群点或需要进行特征选择,MAE是更合适的选择;如果追求预测精度且噪声近似高斯分布,MSE通常表现更好。

http://www.dtcms.com/a/284051.html

相关文章:

  • Mac 安装及使用sdkman指南
  • Java全栈面试实录:从电商支付到AIGC的深度技术挑战
  • YOLOv3 技术深度解析:从理论到实践的完整指南
  • Clip微调系列:《MaPLe: Multi-modal Prompt Learning》
  • kong是什么
  • Vsan关闭集群与重启集群
  • 6、docker network
  • Docker国内镜像
  • Docker-Beta?ollama的完美替代品
  • Ansible AWX 自动化运维
  • 线上项目https看不了http的图片解决
  • Go语言实战案例 - 找出切片中的最大值与最小值
  • vue3+ts+elementui-表格根据相同值合并
  • 宝塔面板一键迁移(外网服务器迁移到内网服务器)
  • Robin问题傅里叶变换与解分析
  • java如何实现打印list对象占用多大内存
  • 算法学习笔记:26.二叉搜索树(生日限定版)——从原理到实战,涵盖 LeetCode 与考研 408 例题
  • xss防御策略
  • 单例模式详细讲解
  • 从 0 到 1 玩转 XSS - haozi 靶场:环境搭建 + 全关卡漏洞解析
  • 50倍性能飞跃!Spring Boot+Doris Stream Load海量数据实时更新方案
  • RabbitMQ—消息可靠性保证
  • 破解本地数据库困局:DbGate+内网穿透如何实现远程管理自由
  • React Native打开相册选择图片或拍照 -- react-native-image-picker
  • CSDN首发:研究帮平台深度评测——四大AI引擎融合的创作革命
  • MySQL安全修改表结构、加索引:ON-Line-DDL工具有哪些
  • mapbox V3 新特性,添加模型图层
  • 深入GPU硬件架构及运行机制
  • OpenCV学习笔记二(色彩空间:RGB、HSV、Lab、mask)
  • 多维动态规划题解——最长公共子序列【LeetCode】空间优化:两个数组(滚动数组)