当前位置: 首页 > news >正文

Swin Transformer核心思路讲解(个人总结)

在这里插入图片描述

Swin Transformer 结构总结

  1. 首先,将一张 RGB 图像均匀切分为若干尺寸相同的 patch(每个 patch 可类比于 NLP 中的 token)。
  2. Stage 1,每个 patch 提取的 48 维特征会先通过一个线性层映射到维度为 C C C 的向量。
  3. 随后,这些 token 特征会送入 Swin Transformer 模块(此阶段不改变 token 数量及其维度),完成 Stage 1 的特征提取。
  4. 接着进入 Stage 2:通过 patch merging 操作,将每 2×2 个相邻的 token(共 4 个)在特征维度上拼接(concatenate),形成一个新的 token&#x
http://www.dtcms.com/a/276125.html

相关文章:

  • 文件上传漏洞2-常规厂商检测限制绕过原理讲解
  • 强化学习、PPO和GRPO的通俗讲解
  • C语言第一章数据类型和变量(下)
  • Java 大视界:基于 Java 的大数据可视化在智慧城市能源消耗动态监测与优化决策中的应用(2025 实战全景)
  • 视频分析应用的搭建
  • 【Linux-云原生-笔记】Apache相关
  • NE综合实验2:RIP与OSPF动态路由优化配置、FTP/TELNET服务部署及精细化访问控制
  • Java反射与注解
  • 树形动态规划详解
  • 大数据时代UI前端的智能化服务升级:基于用户情境的主动服务设计
  • 【PycharmPyqt designer桌面程序设计】
  • 【学习新知识】用 Clang 提取函数体 + 构建代码知识库 + AI 问答系统
  • GD32 CAN1和TIMER0同时开启问题
  • 《通信原理》学习笔记——第一章
  • 细谈kotlin中缀表达式
  • H2在springboot的单元测试中的应用
  • skywalking镜像应用springboot的例子
  • try-catch-finally可能输出的答案?
  • Docker-镜像构建原因
  • C语言基础教程--从入门到精通
  • Spring Boot整合MyBatis+MySQL+Redis单表CRUD教程
  • STM32中的RTC(实时时钟)详解
  • R 语言绘制 10 种精美火山图:转录组差异基因可视化
  • JavaScript 常见10种设计模式
  • 码头智能哨兵:AI入侵检测系统如何终结废钢盗窃困局
  • Redis专题总结
  • MyBatis实现一对多,多对一,多对多查询
  • Golang操作MySQL json字段优雅写法
  • CPU缓存一致性协议:深入解析MESI协议与多核并发设计
  • HTML/JOSN复习总结