当前位置: 首页 > news >正文

多模态Embedding技术

SPHINX: 权重、任务与视觉嵌入的联合混合

论文标题:SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-Modal Large Language Models
核心问题:传统多模态模型在通用性和细粒度理解之间存在矛盾
技术方案

(1)三重混合机制
  • 权重混合
    • 融合真实数据模型权重(WrealW_{\text{real}}Wreal)与合成数据权重(WsynW_{\text{syn}}Wsyn):
      Wfinal=αWreal+(1−α)WsynW_{\text{final}} = \alpha W_{\text{real}} + (1-\alpha) W_{\text{syn}}Wfinal=αWreal+(1α)Wsyn
    • α\alphaα 动态调整,合成数据增强少样本场景泛化能力
  • 视觉嵌入混合
    • 并行使用CNN(ResNet-50)和ViT(ViT-L/16)提取特征:
      • CNN特征:捕捉局部纹理(如物体边缘)
      • ViT特征:建模全局语义(如场景布局)
    • 特征拼接公式:Vfused=[VCNN;VViT]V_{\text{fused}} = [V_{\text{CNN}}; V_{\text{ViT}}]Vfused=[VCNN;VViT]
  • 任务混合
    • 同时优化4类任务损失函数:
      Ltotal=λ1LVQA+λ2Lregion+λ3Ldoc+λ4Lpose \mathcal{L}_{\text{total}} = \lambda_1 \mathcal{L}_{\text{VQA}} + \lambda_2 \mathcal{L}_{\text{region}} + \lambda_3 \mathcal{L}_{\text{doc}} + \lambda_4 \mathcal{L}_{\text{pose}} Ltotal=λ1LVQA+λ2Lregion+λ3Ldoc+λ4Lpose
      其中区域理解任务(Lregion\mathcal{L}_{\text{region}}Lregion)引入坐标回归损失
(2)高分辨率处理创新
  • 子图像分解:将4K图像分割为16个768×768子图
  • 特征重组:使用空间注意力机制融合子图特征
    Aij=softmax(QiKjT/d)A_{ij} = \text{softmax}(Q_iK_j^T/\sqrt{d})Aij=softmax(QiKjT/d)
    QiQ_iQi为第i子图查询向量,KjK_jKj为第j子图键向量

实验效果

测试集基线模型SPHINX提升
MM-Vet52.1%56.5%+4.4%
MMMU(理科)48.3%51.7%+3.4%
POPE(幻觉率)18.2%6.6%-11.6%

创新实质:首次实现模型权重、视觉特征、多任务的端到端联合优化,突破单一模态表示瓶颈。

视觉语言模型水印技术

论文标题:Watermarking Vision-Language Pre-trained Models for Multi-Modal Embedding as a Service
核心问题:商业化多模态API面临模型盗用风险
技术方案

(1)嵌入式正交变换
  • 水印注入公式:
    Ew=E⋅R+bE_{\text{w}} = E \cdot R + bEw=ER+b
    • EEE:原始嵌入向量
    • RRR:随机正交矩阵(RTR=IR^TR=IRTR=I
    • bbb:密钥偏置向量
  • 无损性证明:通过约束 ∣∣R∣∣2=1||R||_2=1∣∣R2=1 保证嵌入空间拓扑不变
(2)双重验证机制
  • 后门触发器响应
    • 设计特定输入组合(如"blue dog + red sky")
    • 验证输出向量与密钥的余弦相似度:sim(Ewtrigger,b)>τ\text{sim}(E_{\text{w}}^{\text{trigger}}, b) > \tausim(Ewtrigger,b)>τ
  • 分布验证
    • 统计1000个正常输出的均值μ\muμ和方差σ\sigmaσ
    • 构建假设检验:H0:μtest=μrefH_0: \mu_{\text{test}} = \mu_{\text{ref}}H0:μtest=μref

抗攻击测试

攻击类型检测准确率误报率
模型提取攻击98.7%1.2%
相似度不变攻击93.5%3.1%
对抗样本攻击89.6%5.4%

创新实质:首次实现无需修改模型参数的水印方案,解决多模态服务版权保护的关键难题。

视觉表:超越嵌入的推理新范式

论文标题:Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
核心问题:向量嵌入缺乏可解释性和因果推理能力
技术方案

(1)视觉表生成框架
  • 层级结构
    {"scene": "kitchen","objects": [{"id": 0, "name": "apple", "attributes": ["red", "sliced"]},{"id": 1, "name": "knife", "relations": ["cutting(0)"]}]
    }
    
  • 生成器架构
    1. DETR检测物体 → 2. CLIP提取属性 → 3. LSTM生成关系描述
(2)可编辑推理机制
  • 人类干预接口
    • 修改错误描述(如将"cutting(0)“改为"holding(0)”)
  • 因果推理模块
    if "knife" in table and "apple" in table:if relation_exists("cutting", knife, apple):action = "prepare food"
    

性能对比

任务类型传统嵌入模型视觉表模型提升
MMVP(物理推理)41.2%56.6%+15.4%
GQA(关系问答)62.1%67.5%+5.4%
编辑成功率-89.3%-

创新实质:开创结构化文本表示替代向量嵌入,实现人类可理解的视觉推理路径。

维度SPHINX水印模型视觉表
技术目标多模态表示能力增强模型版权保护可解释推理
创新点动态权重融合正交变换水印结构化文本表示
计算开销+22% FLOPs<1% 额外开销-15% 推理延迟
适用场景通用多模态理解商业API服务医疗/科学因果推理
http://www.dtcms.com/a/294415.html

相关文章:

  • 基于springboot的乡村旅游在线服务系统/乡村旅游网站
  • 汽车网络升级攻略:CAN-CAN FD-车载以太网
  • Qt(基本组件和基本窗口类)
  • 日语学习-日语知识点小记-构建基础-JLPT-N3阶段(8):自動詞 & 他動詞 「~ている」「~ておく」「~てある」
  • 疯狂星期四文案网第16天运营日记
  • vmware分配了ubuntu空间但是ubuntu没有获取
  • Python爬虫--Xpath的应用
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘jupyter’问题
  • 系统架构师:软件工程-思维导图
  • 二十二、【Linux系统防火墙管理】firewalld命令详解
  • 使用yolov10模型检测视频中出现的行人,并保存为图片
  • 电子设计大赛【C语言核心知识点】讲解
  • HF86611_VC1/HF86611Q_VC1:多通道USB HiFi音频解码器固件技术解析
  • 动态路由协议基础
  • MIT6.824 Raft算法Lab2A实验
  • 基于阿里云平台的文章评价模型训练与应用全流程指南
  • CASAIM自动蓝光检测供应商三维测量系统近线检测汽车变速箱尺寸
  • Java SE:类与对象的认识
  • 【kubernetes】-3 pod基础和yaml文件
  • 记录一本设计模式的书
  • vue3与ue5通信-工具类
  • [C/C++内存安全]_[中级]_[安全处理字符串]
  • ctfshow pwn40
  • 保护板测试仪:守护电池安全的“幕后卫士”
  • 关于SPring基础和Vue的学习
  • Docker 容器中的 HEAD 请求缺失 header?从 Content-MD5 缺失聊起
  • 超声原始数据重构成B扫成像的MATLAB实现
  • 【AI News | 20250722】每日AI进展
  • now能减少mysql的压力吗
  • 【Android】用 ViewPager2 + Fragment + TabLayout 实现标签页切换