当前位置: 首页 > wzjs >正文

长寿网站建设公司免费下载建筑图集规范的网站

长寿网站建设公司,免费下载建筑图集规范的网站,紫搜科技建站,1688网站可以做全屏吗声明:本代码非原创,是博主跟着国外大佬的视频教程编写的,本博客主要为记录学习成果所用。 我们首先开始编写视觉模型这一部分,这一部分的主要功能是接收一个batch的图像,并将其转化为上下文相关的嵌入向量,…
声明:本代码非原创,是博主跟着国外大佬的视频教程编写的,本博客主要为记录学习成果所用。

我们首先开始编写视觉模型这一部分这一部分主要功能接收一个batch图像将其转化上下文相关嵌入向量这一阶段我们需要做的事情以下这些

  • 编写一个全局通用视觉配置
  • 编写用户模型调用
  • 输入图像嵌入向量
  • 通过transformer编码图像嵌入向量进行编码使其上下文相关

我们一个个实现这些代码

视觉模型配置

视觉模型配置主要如下

class SiglipVisionConfig:def __init__(
			self,
			hidden_size=768,
			num_hidden_layers=12,
			num_attention_heads=12,
			intermediate_size=3072,
			num_channels=3,
			image_size=224,
			patch_size=16,
			attention_dropout=0.0,
			layer_norm_eps=1e-6,
			num_image_tokens: int = None,**kwargs):super().__init__(**kwargs)
		self.hidden_size = hidden_size ## embedding 的维度
		self.num_hidden_layers = num_hidden_layers ## 隐藏层的数量
		self.num_attention_heads = num_attention_heads ## 注意力头数量
		self.intermediate_size = intermediate_size ## 线性层的维度 
		self.num_channels = num_channels ##图像的RGB通道
		self.image_size = image_size ## 图像尺寸,任何图像size都会被缩放到这个尺寸
		self.patch_size = patch_size ## 每个patch的尺寸
		self.attention_dropout = attention_dropout ## 注意力层dropout
		self.layer_norm_eps = layer_norm_eps ## 层归一化epsilon
		self.num_image_tokens = num_image_tokens ## 图像token数量,它实际上是一个固定值

为了各个变量涵义更加浅显易懂博主增加中文注释

顶层模型

随后用户模型用户只需要一个batch图像传入调用forward函数即可返回这些图像上下文相关embeddings

代码如下

class SiglipVisionModel(nn.Module): ## 最顶层的视觉模型,它负责顶层的传入和编码的输出def __init__(self, config:SiglipVisionConfig):super().__init__()self.config = configself.vision_model = SiglipVisionTransformer(config)def forward(self, pixel_values) -> Tuple:# [Batch_size,Channels,Height,Width] ->  [Batch_size,Num_Patches(num_image_token),Embedding_size(Hidden_size)]return self.vision_model(pixel_values = pixel_values)	

其中输入形状 [ Batch_size, Channels, Height, Width ],对应一个图像batch各自RGB通道像素输出 [ Batch_size, Num_Patches, Embedding_size ], 对应各个图像每个分割Patch嵌入结果

模型拆分

我们需要内部一次视觉模型调用拆分两个模型各自的调用也就是拆分嵌入模型Transformer编码这里我们创建一个SiglipVisionTransformer将其分成两个模型调用

代码如下

class SiglipVisionTransformer(nn.Module): ##视觉模型的第二层,将模型的调用分为了图像嵌入模型和transformer编码器模型的调用def __init__(self, config:SiglipVisionConfig):super().__init__()self.config = configself.embed_dim = config.hidden_sizeself.embeddings = SiglipVisionEmbeddings(config) ## 负责将图像嵌入成向量self.encoder = SiglipEncoder(config) ## 负责将向量编码成注意力相关的向量self.post_layer_norm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps) ## 层归一化def forward(self, pixel_values:torch.Tensor) -> torch.Tensor:"""
		pixel_values: [Batch_size,Channels,Height,Width]"""## [ Batch_size,Channels,Height,Width] -> [Batch_size,Num_Patches,Embedding_size] 
		hidden_states = self.embeddings(pixel_values) ## 将图像嵌入成向量# [Batch_size,Num_Patches,Embedding_size] -> [Batch_size,Num_Patches,Embedding_size]
		last_hidden_state = self.encoder(hidden_states) ## 将向量编码成注意力相关的向量# [Batch_size,Num_Patches,Embedding_size] -> [Batch_size,Num_Patches,Embedding_size]
		last_hidden_state = self.post_layer_norm(last_hidden_state)return last_hidden_state

嵌入模型

嵌入模型初始图像像素初步转换patch编码向量list, 同时阶段我们使用位置编码位置编码形式多种这里我们采用自学习嵌入向量每个位置创建一个可以学习参数向量形成位置矩阵使用时候根据indices位置矩阵抽取对应位置向量即可

代码

class SiglipVisionEmbeddings(nn.Module):	def __init__(self, config:SiglipVisionConfig):
		self.config = config
		self.patch_size = config.patch_size
		self.image_size = config.image_size
		self.embed_dim = config.hidden_size		self.patch_embedding = nn.Conv2d(
			in_channels = config.num_channels,
			out_channels = self.embed_dim,
			kernel_size = self.patch_size,
			stride = self.patch_size,
			padding = 'valid', ##不加padding)		self.num_patches = (self.image_size // self.patch_size) ** 2 ## 图像的patch数量 (224 // 16) ** 2 = 196
		self.num_positions = self.num_patches		self.position_embeddings = nn.Embedding(self.num_positions, self.embed_dim)		self.register_buffer("position_ids",
			torch.arange(self.num_positions).expand((1, -1)), ## 这里expand是为了保持和patch_embeds的维度一致,以便可以直接与之相加
			persistent=False,)	def forward(self, pixel_values:torch.FloatTensor) -> torch.Tensor:"""
		pixel_values: [Batch_size,Channels,Height,Width]
		"""
		_ , _ , height, width = pixel_values.shape## 卷积,3通道转embedding_size通道
		patch_embeds = torch.FloatTensor(self.patch_embedding(pixel_values)) ## [Batch_size,Channel,Height,Width] -> [Batch_size,Embedding_size,Num_Patches_Height,Num_Patches_Width]## flatten
		patch_embeds = patch_embeds.flatten(2) # [Batch_size,Embedding_size,Num_Patches_Height,Num_Patches_Width] -> [Batch_size,Embedding_size,Num_Patches]## transpose
		patch_embeds = patch_embeds.transpose(1,2) ## [Batch_size,Embedding_size,Num_Patches] -> [Batch_size,Num_Patches,Embedding_size] ## positon_encoding
		patch_embeds = patch_embeds + self.position_embeddings(self.position_ids) ## [Batch_size,Num_Patches,Embedding_size]  自学习的位置编码return patch_embeds

上面卷积配置表示我们希望卷积结果patch_size * embedding_size维度为了方便大家理解

这里简单介绍一下torch卷积

pytorch2D卷积

卷积通过卷积图像特征提取出来卷积操作可以如图所示

卷积操作本质输入区域展平向量同时卷积核展平向量做一次内积得到输出位置

torch卷积公式:

这里N_i 第i个batchCout_j 是指j输出通道输出星号代表二维区域weight权重input区域做一次卷积

这里可以看到多出一个通道概念其实对于图像来说输入通道就是RGB通道输出通道你希望一个卷积的图像区域多少特征

用图展示如下

这里彩色方块是1*1的卷积核我们希望一个三个输入通道输入卷积得到三个输出通道输出这样对于每个通道conv2D都会为其生成三个卷积核每个通道卷积结果卷积核顺序对应相加比如第一个输出通道的结果等于三个输入通道各自第一个卷积核卷积结果进行相加得到

由此再来这个公式

j输出通道结果等于所有输入通道j输出通道卷积卷积结果相加加上一个偏置矩阵得到


文章转载自:

http://ynVZx82f.zyrcf.cn
http://DIAtsOqe.zyrcf.cn
http://QaSRInhF.zyrcf.cn
http://XfzlSBUk.zyrcf.cn
http://NF5thmZZ.zyrcf.cn
http://CuPaOUJP.zyrcf.cn
http://uTQWjahu.zyrcf.cn
http://z0jXBIc2.zyrcf.cn
http://6mo34pcl.zyrcf.cn
http://Uhb4Xk3l.zyrcf.cn
http://vVb0Qd0K.zyrcf.cn
http://3beupuSW.zyrcf.cn
http://CUD7T541.zyrcf.cn
http://yO9VMrTB.zyrcf.cn
http://Joeekl18.zyrcf.cn
http://PxsAkcSV.zyrcf.cn
http://WsPv2SnN.zyrcf.cn
http://Ju7ol4Or.zyrcf.cn
http://OqAfmLe7.zyrcf.cn
http://OsFDtuvc.zyrcf.cn
http://18U74Ri7.zyrcf.cn
http://bYU9hGGd.zyrcf.cn
http://92roZuK6.zyrcf.cn
http://ewQaugMv.zyrcf.cn
http://2XHZ8ZNr.zyrcf.cn
http://YNkAfrVd.zyrcf.cn
http://5Sz3hu0F.zyrcf.cn
http://nx7D4L9L.zyrcf.cn
http://qJeAiTrn.zyrcf.cn
http://eT431nvu.zyrcf.cn
http://www.dtcms.com/wzjs/708685.html

相关文章:

  • 做企业网站怎么备案淘宝关键词排名查询
  • 黄石做网站建设的那个网站做玉石最专业
  • 换网站了吗天河网站建设技术
  • 网站播放图片多大合适黄山网站推广公司
  • 免费python在线正常网站东莞智通人才网招聘信息
  • 天津建设工程合同备案网站专业网站设计公司价格
  • 贷款织梦网站模板广告语
  • 域名还在备案可以做网站吗微信公众号文章 转wordpress
  • php 网站做分享功能网站的换肤功能怎么做
  • 合肥网站建设设计外包扬中市建设局网站
  • 建设工程信息官网查询系统上海优化排名推广
  • 购物网站开发论述网站开发建设的一般流程
  • 网站改成响应式品牌大全
  • 记事本做网站报告wordpress添加文章总数标签总数
  • 陕西网络推广网站wordpress的特点
  • 南阳卧龙区高端网站建设价格中英版网站怎么做
  • 邯郸做网站价格二级不死域名制作方法
  • 做网站需要的相关知识免费发布招聘信息
  • 成都活动轨迹seo搜索优化是什么呢
  • 安卓手机做网站服务器北京如何优化网站
  • 网站建设要做哪些工作网站静态和动态区别是什么意思
  • 网站联盟接口怎么做松岗做网站公司
  • 网站建设合同英文wordpress视频解析插件
  • 企业建设网站的步骤是什么意思珠海科技网站建设
  • 百度网站快速收录wordpress设置联系表格
  • 做家旅游的视频网站好网站建设的工作
  • 长沙网站维护营销类图片
  • 网站怎么做来卖东西做电商
  • 图片上传不了网站网站用什么域名
  • app网站开发书籍下载免费做网站通栏广告