当前位置: 首页 > news >正文

专做奢侈品品牌的网站宁波seo深度优化平台

专做奢侈品品牌的网站,宁波seo深度优化平台,搜索引擎搜索wordpress,做ppt兼职的网站BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 目前(2023)的图文模型都是基于端到端训练方式,大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度…

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

目前(2023)的图文模型都是基于端到端训练方式,大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型,作者提出一种使用两个阶段预训练模型Querying Transformer (Q-Former)

一、预训练方法

这种预训练方法分为了两个阶段 (1)视觉语言特征表示学习阶段 (2)视觉到文本的生成学习阶段

1.1 Q-Former

主要作用就是对齐两个不同模态的冻结预训练模型

🟢 Q-Former包含了两个transformer子模块:(1)Image Transformer (特征提取) (2) Text transformer (作为文本编码器和解码器) ;

🟢 一组可学习的查询嵌入向量作为 Image Transformer 的输入,这些向量在self-attention layer相互联系以及通过 cross-attention layer与预训练的图像模型特征交互; 除此之外,这组可学习的嵌入向量也与文本token进行拼接作为Text transformer的输入;

🟢 将Q-Former初始化为 BERT base \text{BERT}_{\text{base}} BERTbase, cross-attention layer是随机初始化的;同时查询向量的大小为:( 32 × 768 32 \times 768 32×768)

在这里插入图片描述

1.2 视觉语言特征表示学习

第一阶段的训练目标是基于文本对,通过 Q-Former 与冻结图像编码器,使得可学习的 query 向量能够从图像中提取出与文本语义最相关、最具信息量的视觉特征。在这个阶段中,采用了与BLIP预训练过程近似的目标损失:Image-Text Contrastive Learning (ITC) 、Image-grounded Text Generation (ITG)、Image-Text Matching (ITM).

🟢 ITC:图像、文本特征对比学习,通过可学习的查询向量和Text transformer中的[CLS]计算相似度,为了防止数据泄露,采用unimodal self-attention,禁止 query 与文本 token 之间的直接交互;

🟢 ITG:将可学习的向量作为条件输入,以自回归的方式生成图像描述,采用了causal self-attention mask

🟢 ITM:二分类匹配任务,采用bi-directional self-attention mask

1.3 图像到文本的生成学习

第二阶段利用LLM的生成语言的能力来训练Q-Former。将图像通过图像冻结模型和Image Transformer得到与文本语义最相关、最具信息量的视觉特征。接着通过一个全连接层的线性变换,将大小转换为符合到LLM模型中的输入维度。作者尝试了两种LLM冻结模型:

(1) decoder-based LLMs : query 表征作为 LLM 的输入前缀(prefix) → LLM 自己完成文本生成

(2) encoder-decoder-based LLMs : 模型学习在给定图像(query 表征)+ 前缀(自定义)的条件下,生成后缀内容

在这里插入图片描述

架构类型模型例子输入方式损失函数类型说明
Decoder-onlyGPT, OPT, LLaMAQ-Former 输出作为前缀,LLM 自回归生成Language Modeling Lossquery → LLM 直接生成
Encoder-DecoderT5, BARTQ-Former 输出 + 前缀文本 → encoder 后缀文本作为 decoder targetPrefix Language Modeling Lossquery + prefix → 生成 suffix
http://www.dtcms.com/a/529971.html

相关文章:

  • 网站信息平台建设方案关键词热度查询
  • 监理与工程造价相关内容补充及整理表
  • 【编号542】2025年上海土地利用矢量数据(分类14大类100多小类)
  • 网页设计宣传海报素材图片优化
  • 快速开发网站做网站常用的背景图像
  • 福州房地产网站建设海南网上申请营业执照步骤
  • 企业营销的网站东莞美容网站建设
  • 重庆游戏网站开发公司江苏免费建站
  • 怎么自己做网站吓别人wordpress 按时间倒序
  • 海口网站建设公司专业做网站
  • 平原做网站浙江网站建设cms
  • 做网站的问卷调查网络规划设计师待遇怎么样
  • vs2015 网站开发教程城乡建设官方网站
  • flashfxp怎么上传对应网站空间黑河做网站的
  • h5响应式网站制作装网要多少钱
  • 腾讯快速建站平台seo站内优化和站外优化
  • 晋城龙采网站建设做外贸的专业网站
  • git 修改commit信息以及提交
  • 网站建设不包括哪个阶段wordpress中文企业主题 下载地址
  • BabybloomSG项目RAG系统优化与多模型对比分析报告
  • 网站优化排名的方法外贸订单网站有哪些
  • 找外包做网站如何免费制作app
  • 小迪安全v2023学习笔记(一百三十八讲)—— Linux系统权限提升内核溢出辅助项目VulnhubDcowPwnkitDirt
  • 网站快速收录付费入口企业网站制作比较好的
  • 开创网站要怎么做微信公众号绑定网站
  • 深圳 汽车网站建设江苏省建设考试信息管理系统网站
  • “人可以向前走“与“空间是螺旋运动的“并不矛盾——时空螺旋运动与局部运动的统一:基于张祥前统一场论的完备推导
  • 可以做软件外包项目的网站电子商务网站建设ppt模板
  • 有哪些可以做课件赚钱的网站平面设计风格有哪些类型
  • 个人房源网seo专员