当前位置: 首页 > news >正文

Codeformer -- 第二阶段

在做超分辨率(SR)时,输入输出的图像的尺寸维度是相同的。

输入一张低分辨率(LR)的图像,如何生成高分辨率(HR)的图像过程

        低分辨率图像(1,3,512,512)通过编码器将原始输入映射到隐空间,加位置编码,假设现在是(1,16*16,512),通过Transformer生成每个像素对应的码本中所有索引的可能性大小,(1,16*16,1024)通过softmax(dim=2)后取top_index得到最相近的索引,(1,16*16,1)。

        注:Transformer中的架构是堆叠了9个注意力层,每层注意力输出维度都为(1,16*16,512)再通过一层线性投影得到(1,16*16,1024)。

        最相近的索引,(1,16*16,1),与码本矩阵相乘后得到量化后的特征(1,16*16,256),

输入量化后的特征(1,16*16,256)到解码器,生成最终高分辨率图像(1,3,512,512)。

我已经尝试的实验工作:

       1、 将CodeFormer的第二阶段推理的模型架构codeformer_arc.py完整提取出来并保存到了txt中。

       2、CodeFormer的第一阶段推理的模型架构vqgan_arc.py提取出来,尝试用MST++用到的高光谱图像数据集来训练第一阶段的CodeBook的生成,这个过程中我首先没用MST的划分patch,有问题,因为图像尺寸是(482,512),这样在采样过程中会出现尺寸不匹配的问题,MST++的做法是每个patch为(128,128),保持训练图像的高宽一致。一张图像就被划分为了2000+个patch,这个训练的体量还是非常大的。我现在训练时只是用了一个简单的MST++使用的MARE损失来训练第一阶段,出现的问题是我没搞懂CodeFormer中是如何对第一阶段进行训练的,在train.py中没看到vq_loss和commitment_loss,它所使用的量化器也不一样。

我现在的思路是:

        先单独训练第一个阶段看看效果。

http://www.dtcms.com/a/416661.html

相关文章:

  • 如何分析网站流量赛博网站建设四川
  • 炫酷网站源码网站建设这块是怎么挣钱的
  • 如何做论坛网站login to view all v2.0 wordpress
  • 网站建设公司被网监大队检查wordpress时间轴归档
  • 杭州商城型网站建设集团形象设计公司
  • 电商网站定制开发手机网站建设网站
  • 莱芜网站建设开发公司百度推广seo自学
  • 如何做试玩类网站百度网盘pc网页版入口
  • GET 和POST 的区别
  • 做网站虚拟主机推荐线上平台推广方式
  • 莱芜金点子信息港房产网车上seo是什么意思
  • 网站突然不收录了网站域名有哪些
  • Dijkstra最短路算法和最小生成树算法
  • 淮安做网站seo网站建设兼职薪酬怎么样
  • 个人业务网站教程地推加人2元1个
  • 福州营销型网站建设价格如何做自己的影视网站
  • 哈尔滨哪里做网站好网站平台开发报价表怎么做
  • 多种网站如何制作公司内部网页
  • 商业网站自主设计可以在网上接网站做的网址
  • wordpress登录网站wordpress 重命名
  • 义马网站开发免费浏览器
  • 丽水网站建设哪家好wordpress 自动发微博
  • 前端做图表的网站wordpress支持哪些数据库
  • 滁州网站设计富拉尔基网站建设
  • 网易 自助网站建设深圳百度关键字优化
  • 网站建设套餐报网站建设实训感想
  • 各个国家的google网站购物导购网站开发
  • 网站建设费大概多少钱做代理能赚到钱吗
  • 做网站需要会什么 知乎html5网页制作代码大全
  • 网站实名认证在哪青岛工程造价信息网