当前位置: 首页 > news >正文

杭州赛虎网站建设杭州视频网站建设

杭州赛虎网站建设,杭州视频网站建设,成都微信网站建设公司哪家好,营销网站的设计思路图(a)是标准的ViT架构;(b)是以HOTR为代表的;(c)是以AS-Net为代表的;(d)是本文所提出的架构标题本文提出R3ViT用于HOI detection,它仅仅基于标准ViT做了一些小小的优化:将CLS token替换为三个附加的relationship semant…
图(a)是标准的ViT架构;(b)是以HOTR为代表的;(c)是以AS-Net为代表的;(d)是本文所提出的架构标题

本文提出R3ViT用于HOI detection,它仅仅基于标准ViT做了一些小小的优化:

  • 将CLS token替换为三个附加的relationship semantics carrier (RSC) tokens,即[HUM], [OBJ], [INT] token,如图1(d)所示;(本文最大的创新点,可以说大道至简)
  • 将ViT中的图像分类损失替换为二分图匹配损失;

与现有的多数用Transformer处理低级视觉任务的工作不同,本文试图将Vision Transformer扩展到更具挑战性的区域级关系推理任务。实验结果表明,只需轻微调整Vision Transformer的结构和使用所提出的RSC tokens,就能实现一个强大的baseline。

此外,本文方法与最近的研究工作的关键区别在于“是否将输入图像分割为一系列不重叠的patches”。本文的R3ViT属于单阶段方法,并保留了Vision Transformer和集合预测的优势。


在关于RSC tokens参数的实验中,无论RSC tokens在训练过程中学习得好不好,都不会对模型在evaluation时的表现产生太大的影响,说明RSC tokens仅仅是作为信息交互的桥梁,它的参数是否学得好无关紧要。甚至在做测试时,将RSC tokens的参数重新随机初始化也没问题。这个就非常有意思了。


在论文的最后一段,作者阐述了一下本文模型所存在的缺点:

首先是Transformer组件在处理图像特征图时的缺陷:注意力模块对特征图中的所有像素施加了几乎一致的注意权重。这个我觉得说的不是很合适,因为在Deformable DETR论文中也提到了类似的一点,但他们说的是在初始化时会对所有像素施加几乎一致的注意力权重。

其次是对多尺度特征的不敏感,普通的patch embedding方法忽略了不同物体在空间尺度上的大小差异。

作者给出了改进的方向:一个能学习稀疏空间采样和多尺度特征的注意力模块,可以提高性能。感觉就是在说Deformable DETR。

http://www.dtcms.com/a/518263.html

相关文章:

  • 刚做外贸最好用哪个网站pc网站开发制作
  • 阿里巴巴如何建设网站优秀电商设计网站
  • 下列哪些属于营销型网站的基础建设洛阳天艺网络做网站怎么样
  • 外贸营销单页网站网站视频链接怎么做的
  • 网站是如何制作的营销平台是什么意思
  • adsense用什么网站做天元建设集团有限公司 电话
  • 网站连接到wordpresswordpress如何显示分类目录
  • 网站建设存在的问题及对策c2c电子商务网站的建站目的
  • 网站图片一般像素网站的公关和广告活动怎么做
  • 网站备案没通过新媒体运营培训
  • 沈阳网站网页怎么用图片做网站背景图
  • 东莞手机网站建设入门建设专业网站哪家比较好
  • 建设银行网站修改上海市建设监理协会网站查询
  • 云南省网站开发软件南昌制作企业网站
  • 网站怎么做防360拦截两个wordpress单点登录
  • 建网站可以铺货网站范例
  • 芜湖高端网站建设公司公众号如何申请
  • 公司网站备案需要哪些wordpress搬家打不开
  • 农林网站建设公司收到短信说备案被退回但工信部网站上正常啊
  • 茂名手机网站制作私人做网站的流程
  • 网站推广软件免费下载京津冀协同发展调研报告
  • 建筑网站知名度法与家国建设征文网站
  • 国土资源部门网站建设制度微信手机网页登录入口
  • 网站开发公司气氛手机网站绑定
  • 优化比较好的网站手机网站前端设计
  • 营销单页网站模板做公众号链接的网站
  • 简易个人网站模板零基础考二建有多难
  • 知名的网站制作公司需要多少钱动漫设计专业学校
  • 成品网站建设哪家好专业门户网站建设
  • 邯郸市建设局网站材料下载入口网站建设服务公