当前位置：首页 > news >正文

视觉SLAM基础补盲

news 2025/9/13 5:11:34

3D Gaussian Splatting for Real-Time Radiance Field Rendering

SOTA方法
3DGS contribution
传统重建
- 基于点的渲染
- NeRF
基础知识补盲
- 光栅化
- SFM
- 三角化
- 极线几何
- 标准的双目立体视觉
- 立体匹配理论与方法
- 立体匹配的基本流程
- 李群和李代数

SOTA方法

3D表示：格网和点
连续场景表示：
NeRF(体积射线行进优化多层感知机（MLP），以实现捕获场景的新视图合成)
插值存储在体素、哈希网格或点中的值来构建连续表示
未考虑插值会受到外部噪声干扰

3DGS contribution

3D 高斯作为灵活且富有表现力的场景表示。
使用 SfM 过程中生成的稀疏点云初始化 3D 高斯，仅使用 SfM 点作为输入即可获得高质量结。
3D 高斯是可微的体积表示，同时可以通过投影到 2D 并应用标准 α 混合来非常高效地进行光栅化。
3D 高斯属性的优化 ——3D 位置、透明度 α、各向异性协方差和球面谐波（SH）系数
3DGS属性优化与自适应密度控制步骤交错进行，在优化过程中添加和偶尔移除 3D 高斯。优化过程产生了场景的合理紧凑、非结构化且精确的表示
快速可见性感知渲染：其使用快速 GPU 排序算法并受基于瓦片的光栅化启发。然而，由于我们的 3D 高斯表示，我们可以执行尊重可见性顺序的各向异性 splatting—— 借助排序和 α 混合 —— 并通过跟踪所需数量的已排序 splat 的遍历实现快速准确的反向传播
??如何理解3DGS与自适应密度控制交错进行？如何理解在优化过程添加和移除3DGS？如何理解快速GPU排序算法以及瓦片光栅化和各向异性splatting?什么是α混合？作用是什么？如何理解后向传播？关注什么参数调整

传统重建

基于点的渲染

NeRF

基础知识补盲

光栅化

什么是光栅化？光栅化具体的实现步骤？

SFM

如何通过运动恢复结构（SfM）校准的相机

三角化

极线几何

极平面、极线
在第二张图像上面搜索空间点M在第一张图像的投影点m的对应点m’的时候，只需要在对应的极线上搜索就可以了
在这里插入图片描述

标准的双目立体视觉

条件
视差 d：指同一物体在左右两张图像中对应点的水平坐标差，在左视图的列坐标x_l减去在右视图上的列坐标x_r，是像素单位,则最终的水平视差为：d = x_l - x_r
深度
深度D等于像素在该视图相机坐标系下Z坐标，是空间单位
视差图
视差图指存储立体校正后单视图所有像素视差值的二维图像。

视差图是一张二维图像，和原图等大小
视差图每个位置保存的以像素为单位的该位置像素的视差值
左视图视差图：在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标
视差与深度的关系：视差与深度成反比：d = f x b / z对应的视差d越小，深度z越大(距离相机越远)
相机的视线平行
相机光心连接构成的基线，与两个相机的光轴平行
极线校正——使两幅图像的极线相互平行

立体匹配理论与方法

主要用来估计图像中每个像素点的可靠的深度信息
立体匹配理论：立体匹配的目的就是对同一三维场景的两幅成像平面中的每一个像素点找到与其相匹配的点，于是可以计算出每个坐标点的视差值 d ，进而可以准确的描述场景的三维空间信息。
视差和深度之间的关系
立体匹配(视差估计)
输入为一对在同一个时刻捕获的经过极线校正的左右两幅图像I_r,I_l,输出是由参考图像中(左图)中每个像素对应的视差值所构成的视差图d。视差是三维场景中某一点在左右图像中对应点位置的像素级差距。
在这里插入图片描述

立体匹配难点：
光照变化、遮挡、无纹理区域、重复纹理、视差不连续

立体匹配的基本流程

匹配代价计算：
衡量待匹配像素与候选像素之间的相关性。代价越小则说明相关性越大，是同名点的概率也越大。(是否为同名点都可以进行匹配计算)
每个像素在搜索同名点之前，往往会指定一个视差搜索范围D（Dmin ~ Dmax）,视差搜索时将范围限定在D内，用一个大小为W×H×D（W为影像宽度，H为影像高度）的三维矩阵C来存储每个像素在视差范围内每个视差下的匹配代价值。矩阵C通常称为DSI（Disparity Space Image）。
选择合适的匹配代价计算函数是立体匹配中不可忽视的关键步骤
代价聚合：

视差计算
视差优化

李群和李代数

这里首先利用了旋转矩阵的正交性质，并考虑旋转矩阵是具有连续时间变化的性质，对旋转矩阵基于时间t求导
最终求导整理得出反对称矩阵的性质
在这里插入图片描述
反对称矩阵能够用一个三维向量表示量 ϕ(t) ∈ R³——这也是反对称矩阵与三维向量存在的性质
考虑在原点附近进行一阶泰勒展开，同时考虑李群在原点附近的正切空间的性质，最终得到R(t)

特殊正交群SO₃与特殊欧式群SE₃
SO₃代表旋转矩阵，而SE₃代表变换矩阵。
这里需要注意：SO₃旋转矩阵具有约束条件，而且旋转矩阵以及变换矩阵对加法不封闭，但是这些矩阵对乘法是封闭的
在这里插入图片描述
同时李群指的是具有连续(光滑)性质的群——SE(3)与SO(3)在实数空间上是连续的
李代数：
这里需要注意的是：李代数是一个由三维向量组成的集合，每个向量对应到一个反对称矩阵，可以用于表达旋转矩阵的导数
李群与李代数的关系为：**指数映射关系R = exp(ϕ^{^}). **
在这里插入图片描述
对于罗德里格斯公式可以形象的理解为：旋转矩阵R能够通过利用模长θ以及单位方向向量a^{^}计算得出的，这样可以将李代数so(3)中的任意一个三维旋转向量，通过罗德里格斯公式，最终计算得出与指数映射等价的旋转矩阵
在这里插入图片描述
姿态矩阵SE(3)上的指数映射：
首先：对于矩阵SE(3)，考虑为：
将矩阵SE(3)通过se(3)李代数通过指数映射表示为：

那么如何理解李代数呢？se(3)位于R⁶空间中，对应的SE(3)的李代数se(3)包含三维平移向量ρ以及三维旋转向量φ
在这里插入图片描述
构建se(3)上面的指数映射：

得出se(3)的指数映射形式为：

将右上角的进行推导得：

平移部分经过指数映射后，发生了一次以J为系数矩阵的线性变换
那么怎么通过对数映射构建李群和李代数的关系呢？

旋转矩阵由9个量构成，但是一次旋转只是存在3个自由度。
旋转矩阵自身带有的约束：必须是正交矩阵，而且行列式为1
通过一种方式，紧凑的描述旋转和平移：
旋转矩阵R可以用一个单位长度的向量n，以及旋转角度θ来描述这个变换
罗德里格斯公式能够明确这种变换
注意Rn = n表示旋转轴上的向量在旋转后不发生任何变换，说明转轴 n 是矩阵 R 特征值 1 对应的特征向量，并且“旋转轴经过旋转之后不变”

李群与李代数的关系
理解一下从SE(3)到se(3)的变化：
通过能够计算出旋转角θ，然后李代数又可以表示为一个绕着某个固定轴a旋转了θ角度的向量，也就是ε = θa，而绕着旋转轴a旋转角度θ，旋转轴经过旋转后仍然不变(Ra = a)，如果通过姿态矩阵T求得t的话，就很简单！！！t = Jρ，而J可以通过θ和a求得，ρ就能够简单得出。