基于CNN和Transformer的分割技术的论文感悟
读完老师推荐的两篇论文之后,对CNN和Transformer的分割技术有了一定的了解,并且使用了Unet分割医学图像分割之后有了更深的感悟。
除此之外,老师给到了CREVNet,这个是实现了精准分割冰架裂缝的网络
还有Diamond-Unet,这个是对于深空岩石图像语义分割的网络它使用了FCFP这个来增强信息交换,和之前的DualSeg这个融合有十分相似之处,他们都是CNN和Transformer的融合网络,但是他们呢应用于不同的场景。
而我们的ER-Swin他呢是采用CNN+Transformer的思想,用卷积层局部感知,然后不断地采样和池化,但是呢它引入了IFEA交互式特征增强注意力(对角线信息交互),以及SSRM语意选择性细化模块(为了解决模型误判)
提问:1,本文提出了什么? 基本构成是什么?
2,提出的东西的基本工作原理中哪些有升级?提出的东西的工作原理?
3,怎么进行结果的测试和优势的?
除此之外我找了两篇相关的论文如下:
第一篇
-
10.3390/rs15092363
ACTNet: ADual-Attention Adapter with a CNN-Transformer Network for the Semantic Segmentation of Remote Sensing Imageryccccc
1,
本文是为了提高遥感卫星的高分辨率
本文提出了一种用于提升遥感分割模型训练速度的新型适配器模块(ResAttn)。ResAttn采用双注意力结构,以捕捉特征集之间的相互依赖,从而提升其全局建模能力,并引入类Swin Transformer的下采样方法,以减少信息损失并保留特征。
本文提出了一个基于卷积神经网络(CNN)的局部特征提取(LFE)模块,并结合多尺度特征提取和残差结构,有效克服了该限制。 (编码器部分同时使用了基于Transformer的Swin Transformer和基于CNN的LFE模块)
此外,采用基于掩码的分割方法,并引入残差增强可变形注意力块(Deformer Block),以提高小目标分割的准确性。
主要还是CNN和Transformer的融合,这里使用了CNN和Transformer的进阶模型,以及使用了ResAttn新型适配器用来融合他们
2,
a) Swin Transformer 主干网络 + ResAttn 适配器模块
-
Swin Transformer 负责全局特征建模,通过移位窗口注意力机制捕获长距离依赖。
-
ResAttn 适配器模块 被插入到每个 Swin Transformer 块之后,接收两个输入:
-
当前 Swin Transformer 块的输出
-
上一个 ResAttn 模块的输出
-
-
通过自注意力机制融合这两个特征,增强跨层特征的交互,提升全局建模能力。
-
最终通过残差连接与原始 Swin Transformer 输出相加,保持结构一致性并利用预训练权重
还有就是LFE和Swin Transformer
3,最后,在 ISPRS Potsdam 数据集上进行了大量实验。实验结果表明,本文所述模型具有优越的性能。
第二篇
-
10.1080/22797254.2024.2361768
Incorporating convolutional and transformer architectures to enhance semantic segmentation of fine-resolution urban image
Full article: Incorporating convolutional and transformer architectures to enhance semantic segmentation of fine-resolution urban images
提问:1,本文提出了什么? 基本构成是什么?
2,提出的东西的基本工作原理中哪些有升级?提出的东西的工作原理?
本文是为了提高城市图像的高分辨率,还是CNN和Transformer的双编码器结构
1,2, ICTANet 模型本质上是一个基于 Transformer 的编码器-解码器结构。双编码器架构结合了 CNN 和 Swin Transformer 模块,旨在提取全局和局部详细信息
特征提取和融合模块(FEF)收集各个阶段的特征信息,实现多尺度的上下文信息融合。此外,在解码器末端引入了辅助边界检测(ABD)模块,以增强模型捕获目标边界信息的能力