一种用于医学图像分割的使用了多尺寸注意力Transformer的混合模型: HyTransMA
核心内容: 我是菜鸡!我是菜鸡!我是菜鸡!
如果老师及学姐学长对该文有任何意见,请您随时告诉我,我随时可以删除这篇文章(非常非常真诚)!
如果我有内容解释有误或不够清晰也请随时告诉我,我随时会对文章进行调整。
HyTransMA: A Hybrid Model Using Transformer with Multi-scale Attentions for Medical Image Segmentation
一种用于医学图像分割的使用了多尺寸注意力Transformer的混合模型: HyTransMA
核心内容
将Transformer和卷积网络进行了结合,使用卷积神经网络Resnet和Swin Transformer作为不同的分支,从两种角度对图像的特征进行提取,再用MSA多头注意力来得到最终的结果。
模型结构
其中蓝色的部分为Swin Transformer
绿色的部分为卷积Resnet
黄色的部分则为多头MSA
在编码阶段,一共三次将Swin Transformer和Resnet的相同尺寸的特征融合在一起,所以一共产生了三种不同尺寸的特征,分别对应了三次concat。
在解码阶段,则主要使用UpBlock上采样,来统一不同尺寸的输入。
与TransUNet 作对比
本文与TransUNet一样,同样都是在医学图像分割方向,并将卷积与Transformer结合在了一起,但是结合的方式有很大区别。
结合方式
在TransUNet中,Transformer实际处理的是由卷积模型提取出的特征。
而在本文中,Transformer与卷积模型分别提取了图像的特征。
个人参考
-
Swin Transformer 原文
-
Swin Transformer讲述很好的博客
-
TransUNet
碎碎念
1.目前看近一两年看到的图像相关论文,有很多的图像问题都已经在使用Transformer来替代卷积。
但是Transformer确实缺乏足够的局部特征提取能力,不知道未来是否有相关的技术可以直接的解决这些问题。
2.TransUNet使用的应该是相对传统的VIT,那么如果切换到Swin Transformer是否会有提高,可以提高到什么程度。
或者说,本文和TransUNet不同的处理及提取特征的方式,对应侧重点是什么呢,这些需要进一步分析。
3.如果需要深入研究这一领域知识的话,需要把表单中其他的算法继续研究一下。
可以看出大部分模型都有不同的侧重点,如果能够深入分析出为什么可以表现出这种侧重就好了。
4.未来再回过头在补充吧,还有一些包括训练策略在内容的内容我们还没有看,可以再从paperconnect再看一下。