当前位置: 首页 > wzjs >正文

微信里的商家链接网站怎么做的空间刷赞网站推广

微信里的商家链接网站怎么做的,空间刷赞网站推广,x网站免费,武汉优化网站every blog every motto: Although the world is full of suffering, it is full also of the overcoming of it 0. 前言 IMAGEBIND 多模态论文梗概 IMAGEBIND是一种夸模态的神经网络,以图片为中心,联合六中模态的网络(图片、文…

every blog every motto: Although the world is full of suffering, it is full also of the overcoming of it

0. 前言

IMAGEBIND 多模态论文梗概

IMAGEBIND是一种夸模态的神经网络,以图片为中心,联合六中模态的网络(图片、文字、音频、深度图、热力图、惯性测量单元)

1. 正文

1.1 梗概

一张照片可以将许多经历联系在一起——一张海滩的照片可以让我们想起海浪的声音、沙子的质地、微风,甚至激发一首诗的灵感。图像的这种“绑定”属性为学习视觉特征提供了许多监督来源,通过将它们与任何与图像相关的感官体验相结合。

之前的工作主要集中在image-text,或videoaudio and captions等少数几种模态。

而IMAGEBIND将每种模态和图片对齐。

img

理想情况是同一张图片找到和其对齐的其他模态,而这在实际中是不可获得的。

其他5种模态和图片对齐:
20250508135121

6中模型主要都是VIT类。

1.2 损失函数

20250508135903

上式为I和M的损失,I表示image,M表示其他模态的数据。

q = f ( I ) , k = g ( M ) q = f(I), k = g(M) q=f(I),k=g(M) ,其中 f , g f,g f,g表示深度网络。

τ \tau τ 温度标量,用于控制softmax的平滑。
j j j 表示不相关的pairs。

在实际中, L o s s = L I , M + L M , I Loss = L_{I,M} + L_{M,I} Loss=LI,M+LM,I

1.3 涌现的对齐能力

在IMAGEBIND中,对于未出现的pairs涌现了对齐能力。如,只训练了(I,M1),和(I,M2)出现了(M1,M2)之前的对齐。

zero-shot: 在CLIP中,使用的image-text训练,使用text-prompts去证明zero-shot能力,
emergent zero-shot(涌现的零样本学习能力): 而在IMAGEBIND中,使用image-text和image-audio训练,IMAGEBIND可以用text prompts对audio进行分类,

1.4 应用

1.4.1 多模态嵌入空间算法

图片+音频–> 新的图片
20250508151747

1.4.2 text-based detector to audio-based

有基于文字的检测,升级到基于音频的检测。

在Detic中,是基于文字对图片中的物体进行检测,替换其中的CLIP为IMAGEBIND,实现audio-based的检测。

说明:

这里有点不确定,是基于一段狗吠的音频对图片中狗进行检测,还是“狗吠”这两个字用语音说出来对图片中的狗进行检测。
不管哪种,感觉都挺有意思的,随着技术的发展,不远的将来一定能实现。

20250508152202

1.5 消融实验

1.5.1 scaling image encoder

由于是以image为中心,所以比较一下image encoder网络对性能影响。
结果表明:更强的视觉网络,效果更好,甚至在非视觉模态中。

20250508144959

1.5.2 损失和网络结构

1). 损失参数 τ \tau τ

在深度图、音频、IMU数据分类中,固定 τ \tau τ 效果更好。

除此以外,在depth,thermal, IMU数据训练中,更高的温度训练更好;audio中低温度更好。

2). 投影头

在两种模态中(SUN-D,ESC),linear 好于MLP。

3). epoch

更大的epoch能够提高”涌现的零样本学习能力“(emergent zero-shot)

4). 数据增强

当对SUN RGB-D数据集的少量(图像,深度)对进行训练时,更强的增强有助于深度分类。然而,对于音频,强烈增强视频使任务过于具有挑战性,导致ESC显着下降34%。

5). Depth specific design choices

空间不对齐,降低性能。

6). Audio specific design choices

时间对齐的样本会带来更好的性能。

7). Capacity of the audio and depth encoders

较小的深度编码器可以提高性能,可能是因为(image, depth)数据集的大小相对较小。相反,我们观察到更大的音频编码器提高了性能,特别是当与高容量图像编码器配对时。

http://www.dtcms.com/wzjs/192616.html

相关文章:

  • 什么网站做效果图最多百度怎么推广自己的视频
  • 全国做网站的公司seo全称英文怎么说
  • 南宁制作企业网站怎么查看域名是一级还是二级域名
  • 网站建设的目的意义seo诊断分析在线工具
  • 可以做甩货的电商网站百度竞价推广投放
  • 二十条优化措施全文seo含义
  • iis做网站跳转企业邮箱查询
  • 百色做网站怎样在网上做推广
  • 网站内容建设和管理系统重庆整站seo
  • 9377传奇手游盒子重庆排名seo公司
  • 域名服务dns的主要功能是抖音seo代理
  • 天津市网站建设公司站长工具ip地址查询
  • 伊春网站优化中国推广网
  • wordpress做的网站扩展性苏州seo关键词优化推广
  • 公司禁用网站怎么做宁波优化seo软件公司
  • 如何设计制作企业网站搜索引擎登录入口
  • 搭建网站用什么语言最近实时热点事件
  • 知名做网站哪家好百度联盟官网
  • 向自己做网站企业网络营销策划方案范文
  • 在美国买云主机做网站seo外链收录
  • WordPress 跳转 xampp网站搜索引擎优化方案
  • 网站开发的数据库技术掌门一对一辅导官网
  • 国内最大的网站建设公司排名网络营销系统
  • 幼儿园资质做网站需要什么资质搜狗推广登录入口
  • 国家开发银行生源地助学贷款网站优化一下
  • 广州网站建站平台无线网络优化
  • 网站建设必会的软件惠州网站建设
  • 茂县建设局网站seo基础教程使用
  • 国内做的比较好的协会网站太原seo公司
  • 怎么建设阿里巴巴国际网站搜索引擎关键词排名优化