当前位置: 首页 > wzjs >正文

展示型网站 数据库seo网站推广实例

展示型网站 数据库,seo网站推广实例,自己做网站能关联支付宝吗,网站框架建设InternVL 指出了目前VLM存在的几个问题: 1)LLM和Vision Enc的参数量不均衡:LLM参数量已经扩大到很大了,Vision Enc还只有1B左右; 2)视觉特征和语言特征没对齐:Vision Enc主要用纯图像数据做训练…

InternVL

  1. 指出了目前VLM存在的几个问题:
    1)LLM和Vision Enc的参数量不均衡:LLM参数量已经扩大到很大了,Vision Enc还只有1B左右;
    2)视觉特征和语言特征没对齐:Vision Enc主要用纯图像数据做训练,于文本特征存在domain gap;
    3)“glue layer”效果差:也就是Vision Enc过后的几层特征映射层(QFormer),参数过少且往往随机初始化,不能有效的将视觉特征对齐;
    综上,作者认为VLM的效果问题主要制约在视觉和语言从模型到特征的不对等上。InternVL致力于解决这种不均衡;
  2. 思考:
    1)这个初版的InternVL和后面很大的不同是,为了让视觉特征对齐,专门用了一个QLLaMA进行两个阶段的预训练,目标就是将Vision Encoder的特征对其到Language上,这个是不是必要的,而且最后使用的语言模型反而不是LLaMA,而是Vicuna,这么操作是必要的嘛?我认为有些浪费,后面再看看InternVL2.5和InternVL3验证一下这个操作是不是一直被保留下来了。
    2)总的来说,这篇工作专注于缓解视觉与语言特征的不均衡上,从各模块参数量、特征对齐方式、数据选择上都下了功夫。但是用一个LLM(QLLaMA)作glue layer,用另一个LLM(Vicunna)作LLM,结构上看起来不是很简洁,感觉后续还是有进一步改进的空间的。

模型结构

总览

  1. Vision Encoder:InternViT-6B,将ViT参数量增大至6B,并针对模型width和depth进行一系列尝试,权衡速度和效果,最终确定如下模型配置。
    模型优化
  2. Lauguage Middileware:QLLaMA,将7B的LLaMA,加上了1B的queries+cross attention layer,用于适配Vision Encoder的特征。这个“MiddleWare”的意义,就是将VisionEnc输出的特征对齐到语言空间中。
    在这里插入图片描述
  3. InternVL-chat
    这里提供了两种用法,要么直接InternViT->Vicuna,要么InternViT+QLLaMA->Vicuna。但是后面好像没看到这两种用法的优劣?
    在这里插入图片描述

训练方法

在这里插入图片描述

  1. 第一阶段:参考CLIP方法,将InternViT-6B输出的图像特征和LLaMA-7B输出的文本特征进行对比学习(Contrastive Loss)。选用的数据集范围很广,可能包含噪声数据,但是可以接受。这个阶段主要目的是提升Vision Enc的基础视觉能力,并且对齐语言特征空间。补充:InternViT-6B是随机初始化的,LLaMA直接用的开源的pretrain作初始化;
  2. 第二阶段:参考BLIP方法,用(Generative Loss),只训练QLLaMA新增的query+cross attention(1B),进一步增强特征对齐的能力;并且让InternViT+QLLaMA获得image caption能力;另外这个阶段用的数据是上一阶段数据集提纯后得到的,数据量更少但是质量更好;
  3. 第三阶段:这个阶段直接在InternViT+QLLaMA后面衔接MLP+LLM(InternLM&Vecunna均可)。作者认为,由于stage1&2时VisionEnc与QLLaMA适配的很好了,而QLLaMA又和LLM的特征空间很相近,所以不需要再次对Vision和Text进行适配,所以只训练新增的MLP(可选:LLM)部分,既加速了训练又保留了LLM本身的能力;数据方面,这一阶段训练数据更精更少了,只有4 million左右的数量;
    在这里插入图片描述

实验

前面一些实验证明了InternViT-6B本身的感知能力,以及InternVL-C的zero-shot和泛化性,不详细写了。主要看下ablation study
可以看到,相比于MLP,QLLaMA能够明显涨点,作者认为这证明了QLLaMA作为glue layer能够更好的将视觉特征对齐到LLM上。(是不是有点存疑?)
在这里插入图片描述

http://www.dtcms.com/wzjs/157860.html

相关文章:

  • 做营销看的网站有哪些内容策划方案
  • 在哪个网站开发外贸业务什么是网络营销推广
  • 西宁网站建设服务公司什么是软文营销?
  • 开原网站建设自助网站建设
  • 手机网站开发多少钱今日广州新闻最新消息
  • 专门做网站的公司与外包公司有哪些yandex引擎
  • react用于做PC网站武汉网络推广网络营销
  • 自己电脑上做网站别人访问企业网站推广技巧
  • 公司网站建设的营销策略范文
  • 学服装设计培训哪里好东莞做网站排名优化推广
  • 网站备案被注销了百度站长平台链接提交
  • 到哪里找人做网站广西南宁做网站的公司
  • 做网站用织梦好吗国外网站排名前十
  • wordpress自动锚文本广州seo培训
  • 怎么在jsp网站做验证码搜索引擎优化分析
  • 网站子站建设自查报告百度账号管理中心
  • 在线男人和女人做那件事网站淘宝推广方式
  • wordpress去底部版权seo搜索优化怎么做
  • 郑州专业网站建设公司产品怎样网上推广
  • 云南网站开发报价网络营销的方式都有哪些
  • 广州微网站北京百度搜索优化
  • 牡丹江建设信息网站百度快照怎么打开
  • 重庆做模块网站网络营销软件站
  • 郑州的做网站公司有哪些承德seo
  • 河南省汝州市文明建设门户网站百度seo排名推广
  • 关于网站建设广告词网站seo查询工具
  • 江苏省建筑网站中央网站seo
  • 做订餐网站数据库应该有哪些表属性词 关键词 核心词
  • 网站升级页面模板seo企业站收录
  • 网站如何进行优化免费网络推广平台有哪些