当前位置：首页 > news >正文

论文笔记：“Mind the Gap Preserving and Compensating for the Modality Gap in“

news 2025/10/30 9:52:52

作为阅读论文的笔记方便理解与复习。

1.无法逾越的性能鸿沟

论文中出现了一个公式如下所示：

$\left\| T_{\| }-W_{opt }\right\| _{F}^{2} \geq \sum_{i=r+1}^{r'} s_{i}^{2}$

其中：

$W_{opt}$ ：是存在于图像空间中的理论最优分类器。

$T_{||}$ ：是文本分类器在图像空间中的“影子”，是它能达到的最佳近似。

$s_i$ ： $W_{opt}$ 的奇异值。

$r$ ：是 $T_{||}$ 的秩。

$r'$ ：是 $W_{opt}$ 的秩， $r' > r$ 。

$||\cdot||_F$ ：是F范数，全称是 Frobenius范数，是衡量矩阵整体大小的一种方法。

①F范数

对于一个m×n的矩阵A，其Frobenius范数定义为：

$\|A\|_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2}$

简单说就是：所有元素平方和，再开平方根。

因为通常要平方更方便，所以经常看到平方F范数：

$\|A\|_F^2 = \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2$

与奇异值的关系：

$\|A\|_F^2 = \sum_{i=1}^{\min(m,n)} s_i^2$

奇异值由大到小分布，因此可以得知公式右方的 $\sum_{i=r+1}^{r'} s_{i}^{2}$ 是 $W_{opt}$ 较小的 $r'-r$ 个奇异值的平方和。

②x、W和T到底是什么？

$x$ 代表图像的特征向量。

在标准的线性分类器设定中：

$W$ 是一个 权重矩阵，形状为 $[d,c]$
- $d$ = 输入特征的维度
- $c$ = 分类的类别数
对于一个输入特征向量 $x \in \mathbb{R}^d$ ，分类过程是：
$\text{scores} = W^T x$
得到的分数向量 $\in \mathbb{R}^d$ ，每个元素代表对应类别的得分。

在原文的多模态语境中：

$W_{opt}$ = 在图像特征上训练的最优分类器权重
$T_{||}$ = 在文本特征上训练的分类器权重（投影到图像空间后的形式）

③举例

设最优图像分类器：

$W_{\text{opt}} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix}$

最小误差为 $\sum_{i=r+1}^{r'} s_i^2=1$ 。

这意味着：

类别1的权重向量： $\begin{bmatrix} 3 \\ 0 \end{bmatrix}$ → 只关注第一个特征
类别2的权重向量： $\begin{bmatrix} 0 \\ 1 \end{bmatrix}$ → 只关注第二个特征

对于输入 $x = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$ ：

$W_{\text{opt}}^T x = \begin{bmatrix} 3x_1 \\ x_2 \end{bmatrix}$

也就是说，在最优分类器上，第一类的得分为 $3x_1$ ，第二类的得分为 $x_2$ 。

现在假设文本分类器：

$T_{\parallel} = \begin{bmatrix} 2 & 1 \\ 0 & 0 \end{bmatrix}$

因为 $T_{\parallel}$ 的秩 $r$ 小于 $W_{\text{opt}}$ 的秩 $r'$ ，所以 $T_{\parallel}$ 的两个类别权重必须线性相关。

类别1的权重 $\begin{bmatrix} 2 \\ 0 \end{bmatrix}$
类别2的权重 $\begin{bmatrix} 1 \\ 0 \end{bmatrix}$

对于任何输入 $x$ ：

$T_{\parallel}^T x = \begin{bmatrix} 2x_1 \\ x_1 \end{bmatrix}$

也就是说，在文本分类器上，第一类的得分为 $2x_1$ ，第二类的得分为 $x_1$ 。

此时误差 $\| T_{\parallel} - W_{\text{opt}} \|_F^2=3$

最优情况是 $T_{best} = \begin{bmatrix} 3 & 0 \\ 0 & 0 \end{bmatrix}$ ，此时输出为 $T_{best}^T x = \begin{bmatrix} 3x_1 \\ 0 \end{bmatrix}$ 误差 $\| T_{\parallel} - W_{\text{opt}} \|_F^2=1$ 。

也就是说，低秩的 $T_{\parallel}$ 最多只能把 $W_{\text{opt}}$ 最大的 $r$ 个奇异值抹掉，留下最小的 $r'-r$ 个奇异值，这就是底线。

④ $W_{\text{opt}}$ 非对角函数的情况

步骤1：利用Eckart-Young-Mirsky定理

该定理指出：对于任意矩阵 $A$ （奇异值 $s_1 \geq s_2 \geq s_3 \geq ...$ ），其最佳秩k近似为保留前k个奇异值得到的矩阵 $A_k$ ，且：

$\min_{\text{rank}(B) \leq k} \|A - B\|_F = \|A - A_k\|_F = \sqrt{\sum_{i=k+1}^{r} s_i^2}$

步骤2：应用到我们的情况

令 $A = W_{\text{opt}}, k = r$ ：

$\min_{\text{rank}(B) \leq r} \| W_{\text{opt}} - B \|_F^2 = \sum_{i=r+1}^{r'} s_i^2$

步骤3： $T_{\parallel}$ 是一个秩为 $r$ 的矩阵

由于 $T_{\parallel}$ 的秩最多为 $r$ ，它属于被最小化的集合：

$T_{\parallel} \in \{ B : \text{rank}(B) \leq r \}$

因此：

$\| T_{\parallel} - W_{\text{opt}} \|_F^2 \geq \min_{\text{rank}(B) \leq r} \| W_{\text{opt}} - B \|_F^2 = \sum_{i=r+1}^{r'} s_i^2$

证毕。

⑤为什么 T 要在 W 的空间上投影？

答案是：为了在同一个基准上衡量文本分类器和图像分类器的能力差距。

投影的数学意义：

原文将文本特征矩阵分解：

$T = T_{\parallel} + T_{\perp}$

$T_{\parallel}$ ：文本特征中能被图像特征解释的部分
$T_{\perp}$ ：文本特征中图像无法表达的部分（对图像分类无用）

由于 $T_{\perp}$ 与所有图像特征正交（ $T_{\perp}^T x = 0$ ），它对图像分类没有任何贡献，所以可以忽略。

$T$ 和 $W$ 原本处于不同空间，只有 $T$ 向 $W$ 的空间投影了才能和 $x$ 相乘，才能分类图像。

http://www.dtcms.com/a/545387.html

相关文章：

国产光学软件突破 | 3D可视化衍射光波导仿真

仓颉语言中的Option类型与空安全处理：深度解析与实践

无穷级数概念

mysql的事务、锁以及MVCC

[Dify 实战] 使用插件实现内容抓取与格式转换流程：从网页到结构化输出的自动化方案

李宏毅机器学习笔记35

类和对象深层回顾：（内含面试题）拷贝构造函数，传值返回和传引用返回区别

Rust环境搭建

潍坊做网站价格个人网页设计软件

LeetCode 刷题【138. 随机链表的复制】

做可转债好的网站wordpress不用邮件确认

Rust 中的减少内存分配策略：从分配器视角到架构设计 [特殊字符]

MySQL8.0.30 版本中redo log的变化

0430. 扁平化多级双向链表

网站关键词多少合适icp备案服务码

TypeScript声明合并详解二

做网站组织架构my77728域名查询

深度学习------图像分割项目

【深度学习2】线性回归的从零开始实现

LeetCode第2题：两数相加及其变种（某大厂面试原题）

Java 字符编码全解析：从乱码根源到 Unicode 实战指南

SpringBoot 高效工具类大全

自己做网站用软件wordpress电商优秀

百度网站建设中的自由容器网站用哪个数据库

入侵检测系统——HIDS和NIDS的区别

C语言多进程创建和回收

仓颉编程语言：控制流语句详解（if/else）

专利撰写与申请核心要点简报

AI搜索引擎num=100参数移除影响深度分析：内容标识与准确性变化

NJU-SME 人工智能（三） -- 正则化 + 分类 + SVM