当前位置: 首页 > wzjs >正文

如何创建一个免费网站wordpress 手机主题

如何创建一个免费网站,wordpress 手机主题,wordpress的站点地址怎么设置,wordpress增加快捷便签快捷文字系列文章目录 文章目录 系列文章目录前言特征图和注意力图的尺寸差异原因在Break-a-Scene中的具体实现总结 前言 特征图 (Latent) 尺寸和注意力图(attention map)尺寸在扩散模型中有差异,是由于模型架构和注意力机制的特性决定的。 特征图和注意力图的尺寸差异原…

系列文章目录


文章目录

  • 系列文章目录
  • 前言
      • 特征图和注意力图的尺寸差异原因
      • 在Break-a-Scene中的具体实现
      • 总结


前言

特征图 (Latent) 尺寸和注意力图(attention map)尺寸在扩散模型中有差异,是由于模型架构和注意力机制的特性决定的。
在这里插入图片描述

特征图和注意力图的尺寸差异原因

  1. 不同的功能目的

    • 特征图(Feature Maps):承载图像的语义和视觉特征,维持空间结构
    • 注意力图(Attention Maps):表示不同位置之间的关联强度,是一种关系矩阵
  2. UNet架构中的特征图尺寸
    在U-Net中,特征图的尺寸在不同层级有变化:

    • 输入图像通常是 512×512 或 256×256
    • 下采样路径(Encoder):尺寸逐渐缩小 (512→256→128→64→32→16…)
    • 上采样路径(Decoder):尺寸逐渐增大 (16→32→64→128→256→512…)

    在Break-a-Scene代码中,我们看到特征图尺寸被下采样到64×64:

    downsampled_mask = F.interpolate(input=max_masks, size=(64, 64))
    
  3. 注意力机制中的尺寸计算
    注意力机制处理的是"token"之间的关系,其中:

    • 自注意力(Self-Attention):特征图中的每个位置视为一个token
    • 交叉注意力(Cross-Attention):文本序列中的token与特征图中的位置建立关联

    如果特征图尺寸是h×w,则自注意力矩阵的尺寸是(hw)×(hw),这是一个平方关系

    在代码中,注意力图通常被下采样到16×16:

    GT_masks = F.interpolate(input=batch["instance_masks"][batch_idx], size=(16, 16))
    
  4. 计算效率考虑

    • 注意力计算的复杂度是O(n²),其中n是token数量
    • 对于64×64的特征图,如果直接计算自注意力,需要处理4096×4096的矩阵
    • 为了降低计算量,通常在较低分辨率(如16×16)的特征图上计算注意力,这样只需处理256×256的矩阵

在Break-a-Scene中的具体实现

在Break-a-Scene中,这些尺寸差异体现在:

  1. 两种不同的损失计算

    a. 掩码损失(Masked Loss):应用在64×64的 Latent 上

    max_masks = torch.max(batch["instance_masks"], axis=1).values
    downsampled_mask = F.interpolate(input=max_masks, size=(64, 64))
    model_pred = model_pred * downsampled_mask
    target = target * downsampled_mask
    

    b. 注意力损失(Attention Loss):应用在16×16的注意力图上

    GT_masks = F.interpolate(input=batch["instance_masks"][batch_idx], size=(16, 16))
    agg_attn = self.aggregate_attention(res=16, from_where=("up", "down"), is_cross=True, select=batch_idx)
    
  2. 注意力存储的筛选

    在存储注意力图时,只保留小尺寸的注意力图:

    def forward(self, attn, is_cross: bool, place_in_unet: str):key = f"{place_in_unet}_{'cross' if is_cross else 'self'}"if attn.shape[1] <= 32**2:  # 只保存小于或等于32×32的注意力图self.step_store[key].append(attn)return attn
    
  3. 注意力聚合

    在聚合不同层的注意力时,确保只使用匹配目标分辨率的注意力图:

    def aggregate_attention(self, res: int, from_where: List[str], is_cross: bool, select: int):# ...num_pixels = res**2for location in from_where:for item in attention_maps[f"{location}_{'cross' if is_cross else 'self'}"]:if item.shape[1] == num_pixels:  # 只选择匹配分辨率的注意力图cross_maps = item.reshape(self.args.train_batch_size, -1, res, res, item.shape[-1])[select]out.append(cross_maps)# ...
    

总结

特征图和注意力图尺寸的差异主要是因为:

  1. 它们在模型中的功能不同
  2. 注意力计算的计算复杂度要求在较低分辨率上进行
  3. UNet架构中的不同层级有不同的特征图尺寸
  4. 为了平衡精度和计算效率,Break-a-Scene使用不同分辨率的特征图和注意力图来计算不同类型的损失

这种设计使得Break-a-Scene能够有效地学习token与图像区域之间的对应关系,同时保持计算效率。

http://www.dtcms.com/wzjs/573507.html

相关文章:

  • wordpress 怎么打开关键词排名优化易下拉效率
  • 简约网站网站群建设系统
  • 吉隆网站建设wordpress怎样添加左侧菜单的功能
  • 烟台建设协会网站网站模块是什么
  • 大连专业制作网站苏州城乡建设局的网站
  • 山西网站推广公司园林景观设计公司做抖音推广
  • 公司网站静态模板服务器wordpress
  • 网络购物网站大全重庆有哪些旅游景点和好玩的地方
  • 上海网站建设 润莱芜在线广告信息
  • 风景旅游网站建设的设计思路广州中医药资源门户网站
  • 河海大学土木专业类建设网站数据库与网站建设
  • 买网站的域名南阳网站开发公司
  • 传奇服务器网站如何建设工业设计公司宣传语
  • 郑州有哪些做网站的公司电脑软件商店十大排名
  • 莆田中小企业网站制作怎样做自己的销售网站6
  • 纪检监察网站建设的意义湖南做网站问磐石网络专业
  • 网站平台动态视觉设计网站
  • wordpress 快站做网站推广邢台
  • 网站规划建设前期规划方案罗湖住房和建设局网站官网
  • 做宣传网站需要多少钱南陵网站建设
  • wordpress调用html代码seo营销策略
  • 该网站未在腾讯云备案wordpress 电影模版
  • 免费网站下载直播软件深圳展厅装修公司企业展厅设计公司
  • 晋城建设局网站做网站怎么插音乐
  • 杭州富阳网站建设wordpress技术服务
  • 个人网站是否需要备案市区网站建设情况
  • 建设vip网站相关视频专业网站快速
  • 城市建设网站电子商务专业就业方向 就业岗位有哪些
  • 怎样制作企业的网站2024年阳性最新症状
  • 南沙电子商务网站建设在线是免费生成器