当前位置：首页 > news >正文

Swin Transformer核心思路讲解（个人总结）

news 2025/10/20 0:54:02

在这里插入图片描述

Swin Transformer 结构总结

首先，将一张 RGB 图像均匀切分为若干尺寸相同的 patch（每个 patch 可类比于 NLP 中的 token）。
在 Stage 1，每个 patch 提取的 48 维特征会先通过一个线性层映射到维度为 $C$ 的向量。
随后，这些 token 特征会送入 Swin Transformer 模块（此阶段不改变 token 数量及其维度），完成 Stage 1 的特征提取。
接着进入 Stage 2：通过 patch merging 操作，将每 2×2 个相邻的 token（共 4 个）在特征维度上拼接（concatenate），形成一个新的 token&#x

http://www.dtcms.com/a/276125.html

相关文章：

文件上传漏洞2-常规厂商检测限制绕过原理讲解

强化学习、PPO和GRPO的通俗讲解

C语言第一章数据类型和变量（下）

Java 大视界：基于 Java 的大数据可视化在智慧城市能源消耗动态监测与优化决策中的应用（2025 实战全景）

视频分析应用的搭建

【Linux-云原生-笔记】Apache相关

NE综合实验2：RIP与OSPF动态路由优化配置、FTP/TELNET服务部署及精细化访问控制

Java反射与注解

树形动态规划详解

大数据时代UI前端的智能化服务升级：基于用户情境的主动服务设计

【PycharmPyqt designer桌面程序设计】

【学习新知识】用 Clang 提取函数体 + 构建代码知识库 + AI 问答系统

GD32 CAN1和TIMER0同时开启问题

《通信原理》学习笔记——第一章

细谈kotlin中缀表达式

H2在springboot的单元测试中的应用

skywalking镜像应用springboot的例子

try-catch-finally可能输出的答案？

Docker-镜像构建原因

C语言基础教程--从入门到精通

Spring Boot整合MyBatis+MySQL+Redis单表CRUD教程

STM32中的RTC（实时时钟）详解

R 语言绘制 10 种精美火山图：转录组差异基因可视化

JavaScript 常见10种设计模式

码头智能哨兵：AI入侵检测系统如何终结废钢盗窃困局

Redis专题总结

MyBatis实现一对多，多对一，多对多查询

Golang操作MySQL json字段优雅写法

CPU缓存一致性协议：深入解析MESI协议与多核并发设计

HTML/JOSN复习总结