当前位置：首页 > wzjs >正文

网站模板框架公司网站建设平台

wzjs 2025/7/18 15:24:19

网站模板框架,公司网站建设平台,兖矿东华建设有限公司网站,网站开发源程序掩码图像建模 (MIM) 中的对数似然与交叉熵 1. 问题背景在掩码图像建模（MIM）任务中，模型需要预测被遮蔽的图像块对应的视觉词元（可以理解为图像块的离散类别标签）。具体来说： 每个被遮蔽的图像块 i ∈…

掩码图像建模 (MIM) 中的对数似然与交叉熵

1. 问题背景

在掩码图像建模（MIM）任务中，模型需要预测被遮蔽的图像块对应的视觉词元（可以理解为图像块的离散类别标签）。

具体来说：

每个被遮蔽的图像块 $\in M$ 的真实标签是 $z_i$ （即它原本的视觉词元类别）。
模型通过 Transformer 编码器生成隐藏向量 $h_L^i$ ，然后通过一个分类器（参数为 $W_c, b_c$ ）预测该位置的概率分布 $p_{\text{MIM}}(z' | x^M)$ 。

2. Softmax 分类器的作用

分类器的公式是：
$p_{\text{MIM}}(z' | x^M) = \text{softmax}_z(W_c h_L^i + b_c)$

输入：隐藏向量 $h_L^i \in \mathbb{R}^D$ （来自 Transformer 的输出）。
参数：权重矩阵 $W_c \in \mathbb{R}^{|\mathcal{V}| \times D}$ 和偏置 $b_c \in \mathbb{R}^{|\mathcal{V}|}$ ，其中 $|\mathcal{V}|$ 是视觉词元的总类别数。
输出：一个概率分布，表示模型认为被遮蔽块 $i$ 属于每个视觉词元类别的概率。

具体计算步骤：

对每个被遮蔽位置 $i$ ，计算线性变换： $W_c h_L^i + b_c$ ，得到一个长度为 $|\mathcal{V}|$ 的向量（称为logits）。
对 logits 应用 softmax 函数，将其转换为概率分布：
$\frac{\exp(\text{logits}[z'])}{\sum_{k=1}^{|\mathcal{V}|} \exp(\text{logits}[k])}$
其中 $z^{'}$ 是某个可能的视觉词元类别。

3. 最大化对数似然（Maximize Log-Likelihood）

目标：让模型对真实标签 $z_i$ 的预测概率尽可能高。

数学表达：
$\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}} \left[ \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M) \right]$

解释：
- 对每个被遮蔽位置 $i$ ，计算真实标签 $z_i$ 的对数概率 $\log p_{\text{MIM}}(z_i | x^M)$ 。
- 对所有被遮蔽位置求和，再对所有训练样本 $x$ 求期望。
- 目标是最大化这个总和，即让模型对真实标签的预测概率尽可能大。

4. 交叉熵损失（Cross-Entropy Loss）

交叉熵损失是分类任务中常用的损失函数，定义为：
$\mathcal{L}_{\text{CE}} = - \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M)$

解释：
- 对每个被遮蔽位置 $i$ ，计算真实标签 $z_i$ 的负对数概率。
- 对所有被遮蔽位置求和，得到总损失。
- 目标是最小化这个损失，即让真实标签的预测概率尽可能高。

5. 最大化对数似然 vs. 最小化交叉熵

关键结论：
最大化对数似然和最小化交叉熵损失是完全等价的！

具体来说：
$\max_{\theta} \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M) \quad \iff \quad \min_{\theta} \left( - \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M) \right)$

左边是最大化对数似然（使正确标签的概率最大化）。
右边是最小化交叉熵损失（使正确标签的负对数概率最小化）。

6. 为什么等价？

数学本质：交叉熵损失是负的对数似然。
- 对数似然是 $\sum \log p$ ，交叉熵是 $-\sum \log p$ 。
- 最大化 $A$ 等价于最小化 $- A$ 。
直观理解：
- 如果模型对真实标签的预测概率 $p(z_i)$ 越大，对数似然 $log p(z_i)$ 越大，交叉熵损失 $log p(z_i)$ 越小。
- 例如，若真实标签的概率 $p(z_i) = 0.9$ ，则交叉熵损失为 $-\log(0.9) \approx 0.11$ ；
  若概率 $p(z_i) = 0.1$ ，则损失为 $-\log(0.1) \approx 2.30$ 。
  显然，概率越大，损失越小。

7. 实际训练中的计算

在代码中，通常直接使用交叉熵损失函数（如 PyTorch 的 CrossEntropyLoss）：

# 假设 logits 是模型的输出（未经过 softmax）
# targets 是被遮蔽位置的真实视觉词元标签
loss = F.cross_entropy(logits, targets)

内部过程：
1. 对 logits 应用 softmax，得到概率分布。
2. 计算真实标签的负对数概率。
3. 对所有样本和位置求平均，得到最终损失。

总结

目标：让模型对真实标签的预测概率尽可能高。
数学实现：通过最大化对数似然（等价于最小化交叉熵损失）。
代码实现：直接使用交叉熵损失函数，无需手动计算对数似然。

查看全文

http://www.dtcms.com/wzjs/59.html

手机如何做任务赚钱的网站关键词搜索工具app

电商网站与企业网站区别营销是什么意思

虚拟机做局域网网站服务器市场推广策略

建设一站式服务网站天津seo推广服务

专门做java项目的网站seo工具大全

大学校园网站模板图片百度搜索引擎服务项目

北京做网站比较有名的公司有哪些河南今日头条新闻最新

热点做网站和营销我只服他宁波关键词优化品牌

店铺运营方案策划seo广告优化

成都建设网站哪个好成人电脑培训班附近有吗

苏州公司做网站免费代码网站

百度云 wordpress 教程视频seo门户网站优化

网站建设多少钱专业企业建站公司热线电话

WaP网站模块重庆seo技术教程

如何在国外网站做免费推广百度热度

广西壮族自治区人民政府官网谷歌优化是什么意思

如何将自己做的网站放到网上去揭阳seo快速排名

wordpress自动播放网络优化公司有哪些

博客网站首页设计技能培训

临海市住房与城乡建设规划局网站网站推广网

济南智能网站建设报价搜索引擎营销ppt

php网站广告管理系统360推广

武汉网站模板搭建线上推广软件

惠州有哪些做网站的公司nba在线直播免费观看直播

韩都衣舍网站建设方案seo网站优化网站编辑招聘

广州做网站需要多少钱百度网站如何优化排名

怎么用div做网站最新热点新闻

营口做网站价格优化

贵阳做网站公司排名百度地图3d实景地图

外贸建站哪家强外贸网站怎么做做企业推广