当前位置: 首页 > wzjs >正文

计算机入门基础知识seo整站优化方案案例

计算机入门基础知识,seo整站优化方案案例,wordpress分页,函数自定义wordpress生活应该是美好而温柔的,你也是 —— 25.4.1 一、模态 modalities 常见: 文本、图像、音频、视频、表格数据等 罕见: 3D模型、图数据、气味、神经信号等 二、多模态 1、Input and output are of different modalities (eg: tex…

生活应该是美好而温柔的,你也是

                                                —— 25.4.1

一、模态 modalities

常见: 文本、图像、音频、视频、表格数据等

罕见: 3D模型、图数据、气味、神经信号等


二、多模态

1、Input and output are of different modalities (eg: text-to-image, image-to-text)

输入和输出具有不同的模态(例如文本到图像、图像到文本)

2、Inputs are multimodal (eg:a system that can process both text and images)

输入同时是多模态的(例如可以处理文本和图像的系统)

3、Outputs are multimodal (eg: a system that can generate both text and images)

输出是多模式的(例如可以生成文本和图像的系统)


三、为什么需要多模态

1.许多现实任务是天然的多模态任务

2.加入不同模态有助于模型提升表现(加强模型对世界的理解)

3.更加灵活的使用方式和广阔的应用场景


四、GPT-4V

接收图像 + 提示词,给出一些回答


五、多模态模型要点

1.文本如何编码

Transformer 文本编码器


2.图像如何编码

ViT 图像编码器

        把一张图像切分成n份,把每份切分后的图像展平为一个向量,在这些向量中可以加入位置编码(位置编码也可以换做ROPE相对位置编码)进行定位,每一小份图像相当于NLP领域中的每个字,输入的图像就是一个矩阵

图像self-attention

图像的self-attention可以看作是图像的每一部分图像的其余部分交互做计算


3.文本编码与图像编码之间如何交互【计算关系】

Ⅰ、CLIP 图文交互

        分别对文本(Text encoder)和图像(Image encoder)进行编码,两者经过编码后分别得到一个向量,然后对这两个得到的向量做一种类似于Triplet Loss 或 Cosine的训练

        训练目标:如果这段文本是用来描述这张图的,则让二者的向量比较接近,反之则差距较远

CLIP图文交互:使用对比学习的训练方式

        将图像和文本编码到统一特征空间,并通过最大化匹配对的相似度、最小化非匹配对的相似度来对齐两种模态。

CLIP 采用文本编码器图像编码器双塔结构,分别处理文本和图像输入,并将两者的特征映射到同一向量空间。

        文本编码器:基于 Transformer,输入文本通过词嵌入和位置编码后,经多层自注意力机制提取语义特征,最终输出固定长度的文本嵌入向量(如 512 维)。

        图像编码器:支持 ResNet 或 Vision Transformer(ViT)。以 ViT 为例,图像被分割为 16×16 的图像块,通过线性投影和位置编码后,经多层 Transformer 层提取视觉特征,输出图像嵌入向量。

        联合嵌入空间:通过共享投影层(如全连接层)将文本和图像嵌入归一化为单位向量,确保两者在同一空间中可计算相似度。


Ⅲ、flamingo 图文交互

        Flamingo 是 DeepMind 提出的多模态视觉语言模型,通过冻结预训练模型 + 新型交叉注意力机制的架构设计,实现了少样本学习(Few-Shot Learning)和上下文学习(In-Context Learning)能力。

flamingo gated xatten

Attention同时输入一个x 和 y,输入的图像矩阵 x 过所谓的 K 和 V,输入的文本编码 y 过 Q,然后以 Q、K、V的形式计算交叉注意力cross attention

计算q * k ^ t横轴是文本,竖轴是图像,计算图像序列文本序列的注意力


Ⅳ、LLava 图文交互(倾向于主流)

        输入时,直接将输入图像的编码与输入文本的编码拼接起来,一起送入语言模型【如传统的Transformer结构】

LLava attention (本质上就是普通的self-attention)

        文字向量与图像向量拼接起来的序列,与自身逐个计算注意力分数,得到一个拼接序列长度 × 拼接序列长度的注意力矩阵

http://www.dtcms.com/wzjs/493428.html

相关文章:

  • 网站有源代码如何做seo市场调研报告总结
  • 建设一个网站需要什么技术哈尔滨百度关键词优化
  • 网站建设需要的设备和软件自助建站免费搭建个人网站
  • 怎么申请免费国内免费网站浏览器大全网站
  • 网站title keyword description比较好的品牌策划公司有哪些
  • 山西网络营销企业seo推广外包
  • 网站建设 人员 年终总结百度推广软件
  • 网站制作西安拉新推广平台
  • 网站建设目标及需求优化大师官方免费
  • 视频制作和剪辑软件seo学校
  • 站酷官网入口sem数据分析
  • erp软件定制开发seo优化工作内容
  • 一个专业做设计的网站2020国内搜索引擎排行榜
  • 嘉兴免费网站制作qq代刷网站推广免费
  • 南昌网站建设规划方案可以免费发广告的网站有哪些
  • 广西壮族自治区卫生健康委员会网站中国seo第一人
  • 北京网站推广外包活动推广方式
  • 技术支持 东莞网站建设东莞天助专业做app软件开发公司
  • 做营销网站多少钱小红书怎么做关键词排名优化
  • 建设外国商城网站关键词优化百家号
  • 想网上卖家具怎么做网站站长之家seo查询
  • 德阳做网站的公司网络推广经验
  • 用什么自己做网站网络推广一般怎么收费
  • 网站上的个人词条怎么做的网站平台都有哪些
  • 做百度网站优化多少钱百度官方版下载
  • wordpress分类设置seo怎样优化网站关键词排名靠前
  • 书店网站建设设计方案百度竞价托管公司
  • 网站运营推广选择乐云seo系统优化软件十大排名
  • 专业网站建设哪里找中国万网登录入口
  • 东莞高端网站建设费苏州疫情最新情况