当前位置：首页 > news >正文

多模态Embedding技术

news 2025/10/8 3:48:35

SPHINX: 权重、任务与视觉嵌入的联合混合

论文标题：SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-Modal Large Language Models
核心问题：传统多模态模型在通用性和细粒度理解之间存在矛盾
技术方案：

（1）三重混合机制

权重混合
- 融合真实数据模型权重（ $WrealW_{\text{real}}$ ）与合成数据权重（ $WsynW_{\text{syn}}$ ）：
  $Wfinal=αWreal+(1−α)WsynW_{\text{final}} = \alpha W_{\text{real}} + (1-\alpha) W_{\text{syn}}$
- $α\alpha$ 动态调整，合成数据增强少样本场景泛化能力
视觉嵌入混合
- 并行使用CNN（ResNet-50）和ViT（ViT-L/16）提取特征：
  - CNN特征：捕捉局部纹理（如物体边缘）
  - ViT特征：建模全局语义（如场景布局）
- 特征拼接公式： $Vfused=[VCNN;VViT]V_{\text{fused}} = [V_{\text{CNN}}; V_{\text{ViT}}]$
任务混合
- 同时优化4类任务损失函数：
  $\mathcal{L}_{\text{total}} = \lambda_1 \mathcal{L}_{\text{VQA}} + \lambda_2 \mathcal{L}_{\text{region}} + \lambda_3 \mathcal{L}_{\text{doc}} + \lambda_4 \mathcal{L}_{\text{pose}}$
  其中区域理解任务（ $Lregion\mathcal{L}_{\text{region}}$ ）引入坐标回归损失

（2）高分辨率处理创新

子图像分解：将4K图像分割为16个768×768子图
特征重组：使用空间注意力机制融合子图特征
$Aij=softmax(QiKjT/d)A_{ij} = \text{softmax}(Q_iK_j^T/\sqrt{d})$
$Q_i$ 为第i子图查询向量， $K_j$ 为第j子图键向量

实验效果：

测试集	基线模型	SPHINX	提升
MM-Vet	52.1%	56.5%	+4.4%
MMMU（理科）	48.3%	51.7%	+3.4%
POPE（幻觉率）	18.2%	6.6%	-11.6%

创新实质：首次实现模型权重、视觉特征、多任务的端到端联合优化，突破单一模态表示瓶颈。

视觉语言模型水印技术

论文标题：Watermarking Vision-Language Pre-trained Models for Multi-Modal Embedding as a Service
核心问题：商业化多模态API面临模型盗用风险
技术方案：

（1）嵌入式正交变换

水印注入公式：
$Ew=E⋅R+bE_{\text{w}} = E \cdot R + b$
- $E$ ：原始嵌入向量
- $R$ ：随机正交矩阵（ $R^TR=I$ ）
- $b$ ：密钥偏置向量
无损性证明：通过约束 $R||_2=1$ 保证嵌入空间拓扑不变

（2）双重验证机制

后门触发器响应：
- 设计特定输入组合（如"blue dog + red sky"）
- 验证输出向量与密钥的余弦相似度： $sim(Ewtrigger,b)>τ\text{sim}(E_{\text{w}}^{\text{trigger}}, b) > \tau$
分布验证：
- 统计1000个正常输出的均值 $μ\mu$ 和方差 $σ\sigma$
- 构建假设检验： $H0:μtest=μrefH_0: \mu_{\text{test}} = \mu_{\text{ref}}$

抗攻击测试：

攻击类型	检测准确率	误报率
模型提取攻击	98.7%	1.2%
相似度不变攻击	93.5%	3.1%
对抗样本攻击	89.6%	5.4%

创新实质：首次实现无需修改模型参数的水印方案，解决多模态服务版权保护的关键难题。

视觉表：超越嵌入的推理新范式

论文标题：Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
核心问题：向量嵌入缺乏可解释性和因果推理能力
技术方案：

（1）视觉表生成框架

层级结构：

{"scene": "kitchen","objects": [{"id": 0, "name": "apple", "attributes": ["red", "sliced"]},{"id": 1, "name": "knife", "relations": ["cutting(0)"]}]
}

生成器架构：
1. DETR检测物体 → 2. CLIP提取属性 → 3. LSTM生成关系描述

（2）可编辑推理机制

人类干预接口：
- 修改错误描述（如将"cutting(0)“改为"holding(0)”）

因果推理模块：

if "knife" in table and "apple" in table:if relation_exists("cutting", knife, apple):action = "prepare food"

性能对比：

任务类型	传统嵌入模型	视觉表模型	提升
MMVP（物理推理）	41.2%	56.6%	+15.4%
GQA（关系问答）	62.1%	67.5%	+5.4%
编辑成功率	-	89.3%	-

创新实质：开创结构化文本表示替代向量嵌入，实现人类可理解的视觉推理路径。

维度	SPHINX	水印模型	视觉表
技术目标	多模态表示能力增强	模型版权保护	可解释推理
创新点	动态权重融合	正交变换水印	结构化文本表示
计算开销	+22% FLOPs	<1% 额外开销	-15% 推理延迟
适用场景	通用多模态理解	商业API服务	医疗/科学因果推理