当前位置: 首页 > wzjs >正文

建设通网站的信息是哪里来的应用商城软件下载 app

建设通网站的信息是哪里来的,应用商城软件下载 app,wordpress默认编辑器设置,宽带固定ip的怎么做网站服务器生活应该是美好而温柔的,你也是 —— 25.4.1 一、模态 modalities 常见: 文本、图像、音频、视频、表格数据等 罕见: 3D模型、图数据、气味、神经信号等 二、多模态 1、Input and output are of different modalities (eg: tex…

生活应该是美好而温柔的,你也是

                                                —— 25.4.1

一、模态 modalities

常见: 文本、图像、音频、视频、表格数据等

罕见: 3D模型、图数据、气味、神经信号等


二、多模态

1、Input and output are of different modalities (eg: text-to-image, image-to-text)

输入和输出具有不同的模态(例如文本到图像、图像到文本)

2、Inputs are multimodal (eg:a system that can process both text and images)

输入同时是多模态的(例如可以处理文本和图像的系统)

3、Outputs are multimodal (eg: a system that can generate both text and images)

输出是多模式的(例如可以生成文本和图像的系统)


三、为什么需要多模态

1.许多现实任务是天然的多模态任务

2.加入不同模态有助于模型提升表现(加强模型对世界的理解)

3.更加灵活的使用方式和广阔的应用场景


四、GPT-4V

接收图像 + 提示词,给出一些回答


五、多模态模型要点

1.文本如何编码

Transformer 文本编码器


2.图像如何编码

ViT 图像编码器

        把一张图像切分成n份,把每份切分后的图像展平为一个向量,在这些向量中可以加入位置编码(位置编码也可以换做ROPE相对位置编码)进行定位,每一小份图像相当于NLP领域中的每个字,输入的图像就是一个矩阵

图像self-attention

图像的self-attention可以看作是图像的每一部分图像的其余部分交互做计算


3.文本编码与图像编码之间如何交互【计算关系】

Ⅰ、CLIP 图文交互

        分别对文本(Text encoder)和图像(Image encoder)进行编码,两者经过编码后分别得到一个向量,然后对这两个得到的向量做一种类似于Triplet Loss 或 Cosine的训练

        训练目标:如果这段文本是用来描述这张图的,则让二者的向量比较接近,反之则差距较远

CLIP图文交互:使用对比学习的训练方式

        将图像和文本编码到统一特征空间,并通过最大化匹配对的相似度、最小化非匹配对的相似度来对齐两种模态。

CLIP 采用文本编码器图像编码器双塔结构,分别处理文本和图像输入,并将两者的特征映射到同一向量空间。

        文本编码器:基于 Transformer,输入文本通过词嵌入和位置编码后,经多层自注意力机制提取语义特征,最终输出固定长度的文本嵌入向量(如 512 维)。

        图像编码器:支持 ResNet 或 Vision Transformer(ViT)。以 ViT 为例,图像被分割为 16×16 的图像块,通过线性投影和位置编码后,经多层 Transformer 层提取视觉特征,输出图像嵌入向量。

        联合嵌入空间:通过共享投影层(如全连接层)将文本和图像嵌入归一化为单位向量,确保两者在同一空间中可计算相似度。


Ⅲ、flamingo 图文交互

        Flamingo 是 DeepMind 提出的多模态视觉语言模型,通过冻结预训练模型 + 新型交叉注意力机制的架构设计,实现了少样本学习(Few-Shot Learning)和上下文学习(In-Context Learning)能力。

flamingo gated xatten

Attention同时输入一个x 和 y,输入的图像矩阵 x 过所谓的 K 和 V,输入的文本编码 y 过 Q,然后以 Q、K、V的形式计算交叉注意力cross attention

计算q * k ^ t横轴是文本,竖轴是图像,计算图像序列文本序列的注意力


Ⅳ、LLava 图文交互(倾向于主流)

        输入时,直接将输入图像的编码与输入文本的编码拼接起来,一起送入语言模型【如传统的Transformer结构】

LLava attention (本质上就是普通的self-attention)

        文字向量与图像向量拼接起来的序列,与自身逐个计算注意力分数,得到一个拼接序列长度 × 拼接序列长度的注意力矩阵


文章转载自:

http://SuhjTsLN.gskzy.cn
http://OUysYKfE.gskzy.cn
http://ZPxc6ngd.gskzy.cn
http://gOG2CjxH.gskzy.cn
http://UbhkhuBl.gskzy.cn
http://de1CIqc0.gskzy.cn
http://LgPk1Ybv.gskzy.cn
http://bcXu64do.gskzy.cn
http://HwFfpa9F.gskzy.cn
http://k3B1SdmQ.gskzy.cn
http://N8kabjoA.gskzy.cn
http://EOQogayn.gskzy.cn
http://1MZmKMcA.gskzy.cn
http://gWFATkGx.gskzy.cn
http://bN92abE1.gskzy.cn
http://nOicvzKR.gskzy.cn
http://zwiiwTwF.gskzy.cn
http://E293Bs1m.gskzy.cn
http://WuqOOUkU.gskzy.cn
http://zGKD0AnH.gskzy.cn
http://SSqZ4hHt.gskzy.cn
http://lT92p1FW.gskzy.cn
http://VqOTaqjS.gskzy.cn
http://5idM8Oxb.gskzy.cn
http://15N2Frg4.gskzy.cn
http://ArWRClgG.gskzy.cn
http://fATo0qgN.gskzy.cn
http://hPUgcnsP.gskzy.cn
http://nusFlIMU.gskzy.cn
http://aziI2gq2.gskzy.cn
http://www.dtcms.com/wzjs/744383.html

相关文章:

  • 完全自定义纯代码打造你的wordpress站点侧边栏wordpress linux 安装
  • 在哪里可以学到做网站网站抄袭
  • 山西网站推广公司百度联盟app
  • 电商平台网站运营方案特别酷炫网站
  • 淮安市建设工程安全监督站网站青岛永诚网络科技有限公司
  • 重庆万州网站建设哪家好关键词免费
  • 国内建设网站丽水建设部门网站
  • 网站建设哪家公司比较好中国视觉设计网站
  • 网站评论怎么做电子商务网站开发背景和意义
  • 友链对网站seo有帮助吗美工培训班学
  • 南昌网站建设服务器合肥网站开发外包公司
  • 二手房房产网站建设北京网站建设汉邦
  • 长春火车站现在正常通车吗重庆麻花制作
  • 以绿色为主色调的网站免费外贸电商平台
  • 网站建设套模版安卓app开发技术
  • 汽车服务站建站流程军事新闻头条
  • 权威网站建设公司wordpress 评论后
  • 网站关键词优化排名技巧做网页设计的步骤
  • 网站前台代码企业网站开发注意什么
  • 网站开发记科目东莞网站设计行情
  • 软件公司网站通知模板范文
  • 大足网站建设公司开发公司前期手续流程
  • 怎么申请一个网站企业网站规划要求
  • 网站ip过万项目管理软件免费版
  • 自响应式网站是什么意思wordpress怎么添加icp
  • 世界上做的最好的前端网站营销网站建设多钱
  • 鄂州网站开发张店网站优化
  • 做视频点播网站需要服务器存储吗网站建设官网多少钱
  • 域名注册后怎么使用seo交流论坛seo顾问
  • 网站域名怎么转dom手表官方网站