U-Net笔记
一、 U-net:开创性的编码器-解码器结构
核心架构:
编码器(下采样路径):通过卷积和池化操作逐步提取图像特征,并降低分辨率,捕获图像的上下文信息。
解码器(上采样路径):通过转置卷积等操作逐步恢复图像空间分辨率,实现精确定位。
跳跃连接:最具创新性的部分。它将编码器不同阶段的高分辨率、浅层特征(包含细节、轮廓信息)与解码器相应的深层特征进行特征拼接,而非简单相加。这有效解决了深层网络中空间信息丢失的问题,使分割边界更精确。
特点与应用:
优点:结构对称、优雅,在少量标注数据上也能表现优异。
起源与主力领域:最初为生物医学图像分割设计,至今仍是该领域的首选模型之一,并已广泛应用于卫星图像分割、工业质检等多个视觉任务。
二、 U-net++:更密集的特征融合与深度监督
结构改进:嵌套的密集跳跃连接
在编码器和解码器之间构建了一个密集连接的解码器子网络,形成了嵌套结构。
思想类似于DenseNet,将编码器各层与解码器各层进行全方位的特征拼接,实现了更全面、更丰富的多尺度特征融合。这使得网络能够综合利用从低阶到高阶的所有特征。
深度监督
在嵌套结构的多个输出层(包括浅层和深层)同时施加监督信号,进行多输出损失计算。
优点:
提升训练效率与效果:多个损失梯度共同反向传播,缓解梯度消失,加速模型收敛。
模型可剪枝性:由于每个分支都已单独训练,在推理时可以根据对速度和精度的不同需求,轻松地剪掉深层分支,实现自适应推理,而无需重新训练。
三、 U-net+++:高效的多尺度特征提取
核心思想:
整合低阶特征:使用不同的Max Pooling策略(如X1, X2)来捕获更多样的底层特征(如边缘、纹理)。
整合高阶特征:通过上采样将具有大感受野的高层特征(包含全局语义信息)进行融合。
统一特征图:网络各层统一使用卷积输出64个特征图,最终将所有层(例如5层)的特征组合起来(共5*64=320个特征图),形成一个信息极其丰富的特征表示,用于最终的分割预测。
