当前位置: 首页 > news >正文

TransUnet医学图像分割模型

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

菜鸡申明

如果我有内容理解有误或不够清晰请随时告诉我,我随时会对文章进行调整。

1. 总体介绍

论文链接
TransUnet是首个基于Transformer的医学图像分割模型。整体结构主要为Transformer结构,并使用CNN模型提取特征。

2. 重点分析

2.1 将Transformer与CNN结合在一起

在文中指出,直接应用Transformer存在以下两个问题。

  1. Transformer会将所有的输入全部视为一维序列,而导致忽略空间之间的关系。
  2. Transformer专注于上下文之间的语义,而导致局部特征提取能力的欠缺。

故直接使用Transformer对图像进行处理时并不能取得理想的效果。所以我们在使用Transformer的基础上引入CNN来提取低级的视觉特征(或者理解为来着重提取局部的特征)。
在实际中,将CNN用作特征提取器来生成输入特征图,再使用Transformer进行处理。将CNN-Transformer的混合模型作为编码器。

2.2 Transformer层的结构

设输入的向量长宽分别为H、W,将特征分解为P*P大小的小块,故共有N=HW/P2个小块
再对于每一个小块进行线性投影(注意这里将特定位置嵌入和补丁嵌入结合在了一起),再经过多头自注意力模块(MSA)和多层感知机模块(MLP)。
具体的结构处理可以参考An Image is Worth 16x16 Words

2.3 级联式上采样结构

通过级联多个上采样模块实现级联式上采样,从而将分辨率从H/P×W/P提升至H×W,每个模块依次包含2×倍上采样算子、3×3卷积层和ReLU激活层。
可以学习下这种将分辨率放大的方式,避免直接上采样而丢失关键信息。

碎碎念

未来需要补充浏览下 An Image is Worth 16x16 Words 算法,最好是对应的比较一下 Swin Transformer
后续继续完善

http://www.dtcms.com/a/275122.html

相关文章:

  • PrimeTime (PT Shell) report_timing 报告全字段完整解析
  • 深度对比扣子(Coze) vs n8n
  • halcon 求一个tuple的极值点
  • 上位机知识篇---高效下载安装方法
  • Auto-GPT 简易教程
  • Ant Design ProTable重置函数全解析
  • 【Ubuntu 22.04 ROS2 Humble】没有数字签名。 N: 无法安全地用该源进行更新
  • 47-RK3588 用瑞芯微官方提供recovery进行OTA升级
  • VR协作海外云:跨国企业沉浸式办公解决方案
  • ATAM与效用树:架构评估的核心方法论
  • 喷涂机器人cad【1张】+三维图+设计说明书+降重
  • 【SpringAI】6.向量检索(redis)
  • 【JAVA】面向对象三大特性之继承
  • PICO4 MR开发之外部存储读写
  • 论迹不论心
  • Vue和Element的使用
  • 【跟着PMP学习项目管理】每日一练 - 6
  • 深度学习归一化方法维度参数详解(C/H/W/D完全解析)
  • Linux学习笔记
  • ParaCAD 笔记 png 图纸标注数据集
  • 智能Agent场景实战指南 Day 10:产品经理Agent工作流
  • 【Zephyr开发实践系列】07_SPI-Flash数据操作的非对齐与边界处理分析
  • 栈和队列——队列
  • 计算机基础:内存模型
  • mysql 散记:innodb引擎和memory引擎对比 sql语句少用函数 事务与长事务
  • 光伏反内卷,股价大涨
  • 电子电气架构 --- 电动汽车的主旋律(48V区域架构)
  • 【2025/07/11】GitHub 今日热门项目
  • Python 第三方库的安装与卸载全指南
  • vue2和vue3响应式原理浅析--应付面试本人是懒得记