图像分割关于DualSeg,FFM和CFM的论文学习
DualSeg:融合变压器和CNN结构在复杂葡萄园环境中进行图像分割.pdf
问题 :
1、提出了一种新的并行网络架构语义分割模型,用于对葡萄簇、花梗和遮挡进行分割。了解网络基本组成和工作原理。
2、特征融合模块(FFM)工作原理,他们是如何协调CNN和Transformer分支的不一致特性。
3、实验数据集来源和如何实验证明论文提出方法有效性
1,基本构成:
利用了 CNN 在局部处理和 Transformer 在全局交互方面的优势
基于CNN和基于Transformer的分割模型的优势,即在保持对低级细节的强烈掌握的同时提高全局表示建模的效率,在设计的模型中,SR-Fuse由CNN分支和Transformer分支组成,作为编码器部分,称为DualSeg
2,工作原理:
基于我对Unet和Transformer的理解,以及dualseg的论文中的讲解,过程大概是这样的
图片给了CNN和Transformer,然后他们分别处理,CNN可以得到分割效果,还有细节,Transformer可以得到不同位置信息之间的关联,之后呢用feature fuse model把他们不断地进行交互,最后可以分割不同模块的精准分割。
3,FFM的原理:
FFM块利用下/上采样策略来对齐特征分辨率。由于语义分割的预测密集,需要保留更多的样本信息来分析上下文信息。下采样和上采样模块分别采用了平均池和最近邻插值方法。与其他采样方法相比,这两种采样方法都可以更好地保留全局信息。此外,重塑作用于调整 CNN 和 Transformer 之间参数格式的差异。这1x1卷积用于对齐 CNN 和 Transformer 中信道维度的不一致。因为正则化方法可以使模型收敛更快,减少损耗,防止过拟合,提高模型的泛化能力。因此,FFM块采用了LayerNorm(Ba等人,2016)和BatchNorm(Ioffe和Szegedy,2015)方法。由于 LayerNorm 在 Transformer 结构中效果更好,因此该模块还用于在将特征映射传递给 Transformer 分支之前对特征进行正则化。同样,BatchNorm 模块用于正则化从 Transformer 传递到 CNN 分支的补丁嵌入特征。
4,数据集的来源以及如何验证论文方法有效性的
首先此外,Transformer 取得的成功依赖于对大量数据的训练。因此,DualSeg 模型中的一些权重是从 Swin Transformer 中的官方预训练权重修改而来的。
之后我们的数据集是通过摄像机拍摄不同葡萄品种(不同颜色)的照片,之后通过labelme精准标记并且把图片转成结构化的.json文件形式,换成计算机能听懂的形式,里面记录着每个像素的坐标
(采用快门速度自动曝光控制模式数码相机(D610,尼康)拍摄图像,曝光时间固定为1/100 s。葡萄图片是在成熟季节阳光充足的条件下采集的,拍摄距离为0.5-1.5 m。使用相机以6016x4016像素)
为了展示DualSeg模型的优势,应将该模型与主流分割网络进行比较,包括基于CNN和Transformer的模型。DualSeg模型包括对DualSeg-S和DualSeg-B模型的实验分析。公平地说,所有模型都与 DualSeg 模型处于相同的实验环境中。不同模型在20 k迭代中的性能如表2所示。可以表明,DualSeg-B模型取得了最好的结果,mIoU值为82.7%。葡萄花梗是本实验中最受关注的类别,模型达到68.2%,在所有模型中效果最好
在这些模型对比中,使用控制变量法,使用同样的评估指标来评估,最后得到我们的dualseg是模型最高值,得到我们的有效性
CNN与transformer相结合的路面裂缝分割双径网络.pdf
问题:互补融合模块(CFM)工作原理?是作者提出的还是引入的?它是如何聚合从两个编码器中提取的中间特征。
1,原理:首先,我们将通过通道注意力来调整每个通道的权重。
然后,通过矩阵乘法增强两类特征之间的相关性。
最后,我们将通过残差卷积块进一步处理特征,以获得互补的融合特征
2,我们提出了一种互补融合模块(CFM),用于融合CNN编码器和Transformer编码器在每一层产生的中间特征,,,,,这里说明是作者提出的
3,主要是第二步:矩阵乘法增强两类特征之间的相关性,它通过第一步得到的特征向量,让他们相乘就可以增强他们之间的相关性,就相当于聚合了这两个的特征,后面在是第三步,用残差卷积块儿处理,让他们获得互补的融合特征,由此就实现了
通过网盘分享的文件:图像分割关于DualSeg,FFM和CFM的论文学习.zip
链接: https://pan.baidu.com/s/1nHoucIRIGjxKY5rPvrAqEA 提取码可以私信我
--来自百度网盘超级会员v3的分享