当前位置: 首页 > news >正文

深度学习中的两个不确定性

深度学习中的两个不确定性

偶然不确定性(Aleatoric Uncertainty,AU)

偶然不确定性又称为数据不确定性,是由于观测数据本身的噪声产生的(如人脸图像模糊、标注框边缘不准确、医疗图像采集设备噪声等)。
这类不确定性是数据固有的特性,即使获取更多的观测样本,也无法降低
偶然不确定性通常反映输入数据中难以避免的随机扰动,它会在模型预测结果中累积体现出来。


认知不确定性(Epistemic Uncertainty,EU)

认知不确定性又称为模型不确定性,来源于模型结构、参数以及训练数据分布的不完善。
当模型训练数据不足、参数未充分学习或模型结构不合理时,模型对输入样本的预测会产生偏差,从而体现为认知不确定性。
与偶然不确定性不同,认知不确定性是可以通过增加训练样本数量或改进模型结构而降低的。
例如,当输入样本位于训练数据分布之外(out-of-distribution, OOD)时,模型往往会表现出较高的认知不确定性。


Monte-Carlo Dropout(蒙特卡罗 Dropout)

Monte-Carlo Dropout(简称 MC Dropout)由 Gal 和 Ghahramani 于 2016 年提出,论文为:

Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning (ICML 2016)

其核心思想是:通过在测试阶段保持 Dropout 激活状态,对同一输入样本进行多次随机前向传播,从而获得多个不同的输出结果。
由于每次 Dropout 的神经元激活不同,相当于从模型参数的分布中进行采样,因此可以近似模拟贝叶斯神经网络的采样过程。


理论原理

对于一个模型的输出结果,我们希望得到其方差来估计模型不确定性(尤其是认知不确定性)。
但由于训练好的模型参数是固定的,单次预测无法计算方差。
若我们能对同一输入样本进行 TTT 次预测,并且每次的预测结果 f^{\hat{W}_t}(x) 各不相同,那么就可以计算输出的方差:

其中:

在此过程中,Dropout 起到了近似参数采样的作用。
例如,当 dropout rate = 0.5 时,意味着每个神经元有 50% 的概率被丢弃,这相当于在测试阶段对模型参数进行伯努利分布采样。
因此,通过在测试时保持 Dropout 开启,并进行多次前向传播,我们即可得到模型输出分布的估计,从而估计模型不确定性。


估计不确定性

我们估计不确定性的目的是衡量模型对预测输出的信心程度
由于输入数据本身含有偶然不确定性,而模型参数学习不足又带来认知不确定性,因此模型预测输出的不确定性通常是二者的综合反映。

估计的方法可采用 Monte-Carlo Dropout,通过重复预测计算输出分布的均值与方差,进而同时捕获数据噪声与模型参数带来的不确定性。

对于回归问题,不确定性可以用输出值的方差来表示:

其中:

方差越大,说明模型对该样本的预测越不稳定、不自信;方差越小,则说明模型的预测较为确定。


利用不确定性训练模型

估计出模型不确定性后,我们不仅可以将其作为模型置信度的度量指标,还可以在训练过程中利用不确定性信息,提高模型的稳健性和泛化能力。
下面分别介绍在回归任务与分类任务中的常见做法。


(1)回归任务中的不确定性建模

在回归问题中,模型通常同时输出目标的均值方差

其中,\mu ^2(x) 为预测均值,\sigma ^2(x) 为预测的不确定性(方差)。
基于最大似然推导,可得到以下损失函数:

  • 第一项是带权重的均方误差,表示预测与真实值的偏差;

  • 第二项为正则化项,防止模型过度放大方差。

直观地看:

  • 对高噪声样本( \sigma^2(x) 大),模型降低其权重;

  • 对低噪声样本( \sigma^2(x)  小),模型更加信任其标签;

  • 因此,模型能自动学习数据中噪声的不确定性结构,提高整体鲁棒性。

该思想来自 Kendall 和 Gal 在 2017 年的论文:

What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? (NIPS 2017)


(2)分类任务中的不确定性建模

在分类任务中,模型输出类别概率分布 p(x|y)
若使用 MC Dropout 进行 T 次预测,则可得到 T 个不同的概率分布:

最终平均预测为:

模型的不确定性可用熵(Entropy)表示:

熵值越大,模型越不确定。

此外,可利用**互信息(Mutual Information, MI)**分离认知与偶然不确定性:

其中:

  • H[\bar{p}(y|x)] :总体预测熵(总不确定性);

  • 平均样本熵 \frac{1}{T}\sum_t H[p_t(y|x)] :偶然不确定性;

  • 两者差值即认知不确定性。


(3)不确定性在半监督与主动学习中的应用

  • 半监督学习:利用不确定性筛选高置信度样本生成伪标签,或对高不确定样本施加一致性约束;

  • 主动学习:高不确定性样本通常信息量更大,可优先选择进行人工标注;

  • 医学影像分析:可生成不确定性热力图,辅助医生评估模型分割结果的可靠性与风险区域。


总结与展望

深度学习中的不确定性主要分为偶然不确定性认知不确定性,分别对应于数据噪声与模型参数的不确定来源。
通过 Monte-Carlo Dropout 等方法,可以在不改变网络结构的前提下,对模型输出进行多次采样估计,从而量化预测结果的置信度。
不确定性不仅是模型可靠性的重要指标,也可作为训练信号,引导模型关注高置信度区域或自适应调整样本权重。

未来研究中,不确定性估计将在半监督学习、主动学习、医学影像分析以及可信AI系统中发挥越来越重要的作用,为深度学习模型提供更加稳定、透明与可解释的决策依据。

http://www.dtcms.com/a/546895.html

相关文章:

  • 上海网站推广珈维上海做网站哪个好
  • 淮安网站建设要多少钱网站建设软件app
  • 没有网站如何做天天联盟做网站运营需要学的东西
  • Windows开发,制作开发软件安装程序(二)
  • python2
  • 月饼网站建设广州黄埔建网站
  • 织梦如何制作静态网站模板3d全景网站怎么做
  • 开什么网站暴利企业网站内的问答模式怎么做
  • 威海网站建设whhl网站设计素养
  • 温州网站建设平台网站软件下载大全
  • 自贡企业网站学校信息门户网站建设
  • 网站策划方案详解苏州企业网站建设公司价格
  • 长沙企业网站建设收费施工企业管理制度
  • 西安网络公司网站建设12306网站制作
  • dede批量建站昆明哪个公司做网站建设最好
  • 公司建设门户网站的意义网站开发框架参考文献
  • 力扣410. 分割数组的最大值
  • 做购物网站能赚钱吗wordpress侧边栏固定
  • 上海企业制作网站有哪些内容动漫制作技术专业常识
  • JDBC 连接数据库 详细操作---可远程连接别人数据库
  • 沈阳做企业网站红网
  • 温州网站建设方案托管广州微信小程序开发工作室
  • 有一个网站专门做民宿广西网站建设开发外包
  • 家政服务网站建设方案佛山建站模板搭建
  • 企业建筑网站typecho移植wordpress
  • Rust:零成本抽象下的内存安全与高性能实践
  • 做综合类网站好不好wordpress 实战视频教程
  • 广东省城乡建设厅投诉网站wordpress提交360
  • 网站关键词下降服务器安全卫士
  • Vue3+Element-plus 切换表格表头展示/隐藏