当前位置: 首页 > news >正文

论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“

作为阅读论文的笔记方便理解与复习。

1.无法逾越的性能鸿沟

论文中出现了一个公式如下所示:

\left\| T_{\| }-W_{opt }\right\| _{F}^{2} \geq \sum_{i=r+1}^{r'} s_{i}^{2}

其中:

W_{opt}:是存在于图像空间中的​​理论最优分类器​​。

T_{||}:是文本分类器在图像空间中的“影子”,是它能达到的​​最佳近似​​。

s_iW_{opt}的奇异值。

r:是T_{||}的秩。

r':是W_{opt}的秩,r' > r

||\cdot||_F:是F范数,全称是 Frobenius范数,是衡量矩阵整体大小的一种方法。

①F范数

对于一个m×n的矩阵A,其Frobenius范数定义为:

\|A\|_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2}

简单说就是:所有元素平方和,再开平方根

因为通常要平方更方便,所以经常看到平方F范数

\|A\|_F^2 = \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2

与奇异值的关系:

\|A\|_F^2 = \sum_{i=1}^{\min(m,n)} s_i^2

奇异值由大到小分布,因此可以得知公式右方的\sum_{i=r+1}^{r'} s_{i}^{2}W_{opt}较小的r'-r个奇异值的平方和。

②x、W和T到底是什么?

x代表图像的特征向量。

在标准的线性分类器设定中:

  • W是一个 权重矩阵,形状为[d,c]

    • d = 输入特征的维度

    • c = 分类的类别数

  • 对于一个输入特征向量 x \in \mathbb{R}^d,分类过程是:

    \text{scores} = W^T x

    得到的分数向量 \in \mathbb{R}^d,每个元素代表对应类别的得分。

在原文的多模态语境中:

  • W_{opt}​ = 在图像特征上训练的最优分类器权重

  • T_{||}​ = 在文本特征上训练的分类器权重(投影到图像空间后的形式)

③举例

设最优图像分类器:

W_{\text{opt}} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix}

最小误差为\sum_{i=r+1}^{r'} s_i^2=1

这意味着:

  • 类别1的权重向量:\begin{bmatrix} 3 \\ 0 \end{bmatrix} → 只关注第一个特征

  • 类别2的权重向量:\begin{bmatrix} 0 \\ 1 \end{bmatrix} → 只关注第二个特征

对于输入x = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}

W_{\text{opt}}^T x = \begin{bmatrix} 3x_1 \\ x_2 \end{bmatrix}

也就是说,在最优分类器上,第一类的得分为3x_1,第二类的得分为x_2

现在假设文本分类器:

 T_{\parallel} = \begin{bmatrix} 2 & 1 \\ 0 & 0 \end{bmatrix}

因为T_{\parallel}的秩r小于W_{\text{opt}}的秩r',所以T_{\parallel}的两个类别权重必须线性相关。

  • 类别1的权重\begin{bmatrix} 2 \\ 0 \end{bmatrix}
  • 类别2的权重\begin{bmatrix} 1 \\ 0 \end{bmatrix}

对于任何输入 x

T_{\parallel}^T x = \begin{bmatrix} 2x_1 \\ x_1 \end{bmatrix}

也就是说,在文本分类器上,第一类的得分为2x_1,第二类的得分为x_1

此时误差\| T_{\parallel} - W_{\text{opt}} \|_F^2=3

最优情况是 T_{best} = \begin{bmatrix} 3 & 0 \\ 0 & 0 \end{bmatrix},此时输出为T_{best}^T x = \begin{bmatrix} 3x_1 \\ 0 \end{bmatrix}误差\| T_{\parallel} - W_{\text{opt}} \|_F^2=1

也就是说,低秩的T_{\parallel}最多只能把W_{\text{opt}}最大的r个奇异值抹掉,留下最小的r'-r个奇异值,这就是底线。

W_{\text{opt}}非对角函数的情况

步骤1:利用Eckart-Young-Mirsky定理

该定理指出:对于任意矩阵A(奇异值s_1 \geq s_2 \geq s_3 \geq ...),其最佳秩k近似为保留前k个奇异值得到的矩阵A_k,且:

\min_{\text{rank}(B) \leq k} \|A - B\|_F = \|A - A_k\|_F = \sqrt{\sum_{i=k+1}^{r} s_i^2}

步骤2:应用到我们的情况

A = W_{\text{opt}}, k = r

\min_{\text{rank}(B) \leq r} \| W_{\text{opt}} - B \|_F^2 = \sum_{i=r+1}^{r'} s_i^2

步骤3:T_{\parallel} 是一个秩为 r 的矩阵

由于T_{\parallel} 的秩最多为 r,它属于被最小化的集合:

T_{\parallel} \in \{ B : \text{rank}(B) \leq r \}

因此:

\| T_{\parallel} - W_{\text{opt}} \|_F^2 \geq \min_{\text{rank}(B) \leq r} \| W_{\text{opt}} - B \|_F^2 = \sum_{i=r+1}^{r'} s_i^2

证毕。

⑤为什么 T 要在 W 的空间上投影?

答案是:为了在同一个基准上衡量文本分类器和图像分类器的能力差距。

投影的数学意义:

原文将文本特征矩阵分解:

T = T_{\parallel} + T_{\perp}

  • T_{\parallel}:文本特征中能被图像特征解释的部分

  • T_{\perp}:文本特征中图像无法表达的部分(对图像分类无用)

由于 T_{\perp} 与所有图像特征正交(T_{\perp}^T x = 0),它对图像分类没有任何贡献,所以可以忽略。

TW原本处于不同空间,只有TW的空间投影了才能和x相乘,才能分类图像。

http://www.dtcms.com/a/545387.html

相关文章:

  • 国产光学软件突破 | 3D可视化衍射光波导仿真
  • 仓颉语言中的Option类型与空安全处理:深度解析与实践
  • 无穷级数概念
  • mysql的事务、锁以及MVCC
  • [Dify 实战] 使用插件实现内容抓取与格式转换流程:从网页到结构化输出的自动化方案
  • 李宏毅机器学习笔记35
  • 类和对象深层回顾:(内含面试题)拷贝构造函数,传值返回和传引用返回区别
  • Rust环境搭建
  • 潍坊做网站价格个人网页设计软件
  • LeetCode 刷题【138. 随机链表的复制】
  • 做可转债好的网站wordpress不用邮件确认
  • Rust 中的减少内存分配策略:从分配器视角到架构设计 [特殊字符]
  • MySQL8.0.30 版本中redo log的变化
  • 0430. 扁平化多级双向链表
  • 网站关键词多少合适icp备案服务码
  • TypeScript声明合并详解二
  • 做网站组织架构my77728域名查询
  • 深度学习------图像分割项目
  • 【深度学习2】线性回归的从零开始实现
  • LeetCode第2题:两数相加及其变种(某大厂面试原题)
  • Java 字符编码全解析:从乱码根源到 Unicode 实战指南
  • SpringBoot 高效工具类大全
  • 自己做网站用软件wordpress电商优秀
  • 百度网站建设中的自由容器网站用哪个数据库
  • 入侵检测系统——HIDS和NIDS的区别
  • C语言多进程创建和回收
  • 仓颉编程语言:控制流语句详解(if/else)
  • 专利撰写与申请核心要点简报
  • AI搜索引擎num=100参数移除影响深度分析:内容标识与准确性变化
  • NJU-SME 人工智能(三) -- 正则化 + 分类 + SVM