当前位置：首页 > news >正文

UNTER++模型简介

news 2025/10/22 7:34:59

简介

UNTER++ 是一种基于深度学习的自然语言处理（NLP）模型，专注于文本生成、摘要和对话系统任务。其核心架构结合了Transformer的变体，通过多任务学习优化生成质量与效率。

其网络结构如下图所示：

改进点

与UNETR网络相比最核心的改进点是用 EPA 替代原始 Self-Attention。

对比项	UNETR	UNETR++
注意力机制	标准 ViT 中的 vanilla self-attention	EPA 模块：联合建模空间 + 通道注意力，线性复杂度
是否共享 Q/K	否（Q, K, V 独立）	是（空间和通道分支共享 Q 和 K 投影权重）
建模维度	仅空间依赖	空间 + 通道联合依赖
参数量	高（每层 3 个投影矩阵）	低（共享 Q/K，仅 2 个 V 投影 + 卷积）

原始 UNETR 使用标准的 Vision Transformer（ViT）编码器，其中每个 Transformer 块包含自注意力（Self-Attention）和 MLP。这种设计在医学图像分割中计算开销大，且对局部-全局依赖建模不够高效。

EPA 的设计在保持甚至提升分割性能的同时，显著降低参数量和 FLOPs：

（1）将自注意力分解为通道注意力和空间注意力两个并行分支（即“paired”）。

（2）每个分支只关注一个维度（通道或空间），大幅减少计算量。

（3）通过轻量级交互机制融合两个分支的信息。

关于UNETR网络的讲解请看博主的这篇文章：

https://blog.csdn.net/qq_73038863/article/details/153681353?fromshare=blogdetail&sharetype=blogdetail&sharerId=153681353&sharerefer=PC&sharesource=qq_73038863&sharefrom=from_link

网络结构层次化（Hierarchical Design）

对比项	UNETR	UNETR++
特征分辨率	固定 patch 序列（如 16×16×8 → 所有层 token 数相同）	多尺度金字塔结构（类似 Swin）： Stage 1: H/4×W/4×D/2 → Stage 2: H/8×... → Stage 4: H/32×...
下采样方式	无显式下采样（靠 patch embedding 一次性降维）	使用 stride=2 的 3D 卷积进行逐级下采样
跳跃连接对齐	特征图尺寸固定，跳跃连接简单拼接	需要对不同尺度特征进行上采样/融合，更符合 U-Net 原始思想