论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“
作为阅读论文的笔记方便理解与复习。
1.无法逾越的性能鸿沟
论文中出现了一个公式如下所示:
其中:
:是存在于图像空间中的理论最优分类器。
:是文本分类器在图像空间中的“影子”,是它能达到的最佳近似。
:
的奇异值。
:是
的秩。
:是
的秩,
。
:是F范数,全称是 Frobenius范数,是衡量矩阵整体大小的一种方法。
①F范数
对于一个m×n的矩阵A,其Frobenius范数定义为:
简单说就是:所有元素平方和,再开平方根。
因为通常要平方更方便,所以经常看到平方F范数:
与奇异值的关系:
奇异值由大到小分布,因此可以得知公式右方的是
较小的
个奇异值的平方和。
②x、W和T到底是什么?
代表图像的特征向量。
在标准的线性分类器设定中:
是一个 权重矩阵,形状为
= 输入特征的维度
= 分类的类别数
对于一个输入特征向量
,分类过程是:
得到的分数向量
,每个元素代表对应类别的得分。
在原文的多模态语境中:
= 在图像特征上训练的最优分类器权重
= 在文本特征上训练的分类器权重(投影到图像空间后的形式)
③举例
设最优图像分类器:
最小误差为。
这意味着:
类别1的权重向量:
→ 只关注第一个特征
类别2的权重向量:
→ 只关注第二个特征
对于输入:
也就是说,在最优分类器上,第一类的得分为,第二类的得分为
。
现在假设文本分类器:
因为的秩
小于
的秩
,所以
的两个类别权重必须线性相关。
- 类别1的权重
- 类别2的权重
对于任何输入 :
也就是说,在文本分类器上,第一类的得分为,第二类的得分为
。
此时误差
最优情况是 ,此时输出为
误差
。
也就是说,低秩的最多只能把
最大的
个奇异值抹掉,留下最小的
个奇异值,这就是底线。
④
非对角函数的情况
步骤1:利用Eckart-Young-Mirsky定理
该定理指出:对于任意矩阵(奇异值
),其最佳秩k近似为保留前k个奇异值得到的矩阵
,且:
步骤2:应用到我们的情况
令:
步骤3:
是一个秩为
的矩阵
由于 的秩最多为
,它属于被最小化的集合:
因此:
证毕。
⑤为什么 T 要在 W 的空间上投影?
答案是:为了在同一个基准上衡量文本分类器和图像分类器的能力差距。
投影的数学意义:
原文将文本特征矩阵分解:
:文本特征中能被图像特征解释的部分
:文本特征中图像无法表达的部分(对图像分类无用)
由于 与所有图像特征正交(
),它对图像分类没有任何贡献,所以可以忽略。
和
原本处于不同空间,只有
向
的空间投影了才能和
相乘,才能分类图像。
