当前位置: 首页 > news >正文

【文献笔记】Point Transformer

参考笔记:

https://blog.csdn.net/qq_43700729/article/details/136796449

https://blog.csdn.net/u013609289/article/details/122906946

https://blog.csdn.net/yangyu0515/article/details/150424070(这篇文章写的很细致,看完收获很大)


ICCV 2021:Point Transformer

论文:https://arxiv.org/abs/2012.09164

源码:https://github.com/POSTECH-CVLab/point-transformer

这篇文章写的非常好,思路清晰,而且源码实现基本与论文中一致,这一点非常难得,不像其他一些论文经常会偷偷在源码中加一些文中未提及的东西(bushi

目录

1. 前言:自注意力机制适合处理点云的原因

2. 文章贡献

3. 自注意力机制介绍

3.1 标量注意力

3.2 矢量注意力

4. Point Transformer Layer

4.1 公式

4.2 图解

5. Position Encoding

6. Point Transformer Block

7.  Network Architecture

7.1 Backbone Structure

7.2 Transition Down

7.3 Transition UP

7.4 Output Head

8. Point Transformer Seg的源码


1. 前言:自注意力机制适合处理点云的原因

作者提到,Transformer 特别适合点云处理,因为自注意力机制是 Transformer 的核心,本质上就是一个集合算子:它对输入元素具有顺序不变性和数量不变性

① 排列不变性:3D点云 是无序的,即使改变点云txt文件中的点顺序也不会有任何影响。自注意力机制天然具有排列不变性,因为它通过对所有 "点对" 的关系进行建模来处理输入,而不依赖于任何特定的输入顺序

② 捕捉全局上下文:点云数据通常覆盖了 3D空间 中的对象或场景,理解这些数据需要捕捉点与点之间复杂的空间关系。自注意力机制能够有效的捕捉这些关系,因为它为每个 "点对" 赋予一个注意力权重,这反映了两个点之间的相对重要性或者说相关性

因此由 ①②,将自注意力机制用于点云是自然而然的,点云本质上就是在 3D空间 中的点集合

2. 文章贡献

  • 为点云处理设计了一个结合位置编码 Position EncodingPoint Transformer Layer,其表达能力非常强

  • Point Transformer Layer 的基础上,构建了高性能的 Point Transformer Networks,用于点云分类、点云分割,实验结果非常好,很多都达到了 SOTA

3. 自注意力机制介绍

作者提到自注意力机制可以分为梁类:scalar attentionvector attention,即标量注意力向量注意力前者是最原始的 《Attention is all you need》论文中提出的;后者是作者自己以前的论文《Exploring self-attention for image recognition》中提出的;本文使用的是后者 vector attention,即向量注意力

3.1 标量注意力

\chi:多组特征向量的集合

x_j :\chi 中第 j 个特征向量

y_i :表示输出特征

其中,\color{red}y_i 表示输出特征,\color{red}\varphi ,\psi,\alpha 表示对特征的变换,可以是 MLP 或者 Linear

\color{red}\delta 是一个位置编码

\color{red}\rho 是一个标准化函数(通常是SoftMax),用来衡量查询的 \color{red}x_i 与 \color{red}x_j 之间的差异,并指导 \color{red}x_j 的加权输出,建立 \color{red}x_i 与 \color{red}x_j 的关系

流程:使用 \color{red}\varphi ,\psi 转换输入特征 \color{red}x_i,x_j,然后计算他们的标量积(反映两个特征向量之间的关系),并将其与位置编码 \color{red}\delta 相加应用 \color{red}\rho 作为注意力权重,用于对 \color{red}\alpha 转换后的特征进行加权处理

问题:在标量注意力中,算出来的注意力权重是一个标量,是一个值,这一方法会将同一注意力权重应用于特征的所有通道上,而不是逐通道进行加权,这意味着整个特征向量会以相同的比例缩放

3.2 矢量注意力

矢量注意力与标量注意力不同,其计算出来的注意力权重是一个向量而非一个值,这个向量可以调节特征的单个通道

公式:

\color{red}\beta :关系函数,用来衡量特征向量 \color{red}x_i,x_j 之间的关系,例如减法

\color{red}\gamma : 是一个映射函数,如 MLP,产生用于特征加权的注意向量

\color{red}\odot :哈达玛积,即矩阵对应位置相乘,有一个简单的例子如下:

其他符号均与标量注意力公式中一致

4. Point Transformer Layer

4.1 公式

用于本文的 Point Transformer Layer 即矢量注意力,其公式如下:

y_i:采样点 \color{red}i 的输出特征

\chi (i):采样点 \color{red}i 的邻点的特征向量集合(用的是 KNN 搜索邻点,邻点集合是自包含的)

http://www.dtcms.com/a/390020.html

相关文章:

  • Linux | i.MX6ULL Modbus 移植和使用(第二十一章)
  • 几种微前端框架的沙箱策略
  • 黑盒测试:测试用例设计之边界值设计方法(边界值分析法)(上点、离点、内点)健壮性测试、单缺陷假设理论
  • 【题解】P1548 [NOIP 1997 普及组] 棋盘问题
  • scala中for推导式详细讲解
  • React学习 ---- 基础知识学习
  • C语言实现MATLAB中的Fir1带通滤波器
  • 微信小程序开发教程(十七)
  • 9月18日星期四今日早报简报微语报早读
  • SqlSugar 问题记录
  • 记一次宝塔+nginx+php8+thinkphp8多应用下某个应用报错404的问题 - nginx、php日志全无 - 无法追踪
  • Windows Server远程桌面(RDP)安全优化
  • 工具链过于分散会导致哪些问题
  • 【RAG】Youtu-GraphRAG
  • 惠普LaserJet Pro M203dn黑白激光打印机双面卡纸维修一例
  • 专题二 二叉树中的深度优先搜索
  • Git 多人协作(1)
  • 设计模式第三章(迭代器模式)
  • 网络原理(4):HTTP协议 -- HTTP请求 -- 首行(请求方法)
  • 密钥下发服务中心:双重验证 + 实时监控的轻量级密钥管理解决方案
  • 硬件 - RK3588部分(4) - 原理图 - RK806
  • Sass开发【三】
  • 百度之星2025(第二场)
  • Ovis-U1:阿里巴巴推出的统一的多模态理解与生成模型
  • 深入剖析C++智能指针:unique_ptr与shared_ptr的资源管理哲学
  • 创建索引失败,表一直查询不了
  • 知识分享:网线和DB9正确接线方法
  • 【算法笔记】前缀树
  • 让ai完成原神调酒 试做
  • 第十四届蓝桥杯青少组C++选拔赛[2022.11.27]第二部分编程题(2、拼写单词)