3D高斯溅射实现医疗影像内部场景渲染
原论文信息如下:
论文标题:
InnerGS: Internal Scenes Rendering via Factorized 3D Gaussian Splatting 发表日期:
2025年08月 作者:
Shuxin Liang, Yihan Xiao, Wenlu Tang 发表单位:
University of Alberta, Sichuan University 原文链接:
http://arxiv.org/pdf/2508.13287v1 开源代码链接:
https://github.com/Shuxin-Liang/InnerGS
从NeRF到3DGS:一场关于高效渲染的革命
还记得几年前NeRF(Neural Radiance Fields,神经辐射场)横空出世时的震撼吗?这项技术通过神经网络隐式地表示3D场景,实现了令人惊叹的新视角合成和细节重建能力。然而,NeRF有个致命弱点:训练和渲染速度慢得让人抓狂!😫 多层感知机(MLP)的计算成本高昂,训练一个场景往往需要数小时甚至数天。
就在这个时候,3D高斯溅射(3D Gaussian Splatting,简称3DGS)闪亮登场!这项技术彻底改变了游戏规则——不再依赖深度网络隐式编码场景,而是用一组显式的各向异性3D高斯来表示场景。这种方法的突破性在于速度:实现了实时1080p新视角渲染(≥30 fps),并将训练时间从小时级别缩短到分钟级别!🚀
3DGS巧妙结合了神经辐射场的高质量连续重建优势与基于点渲染和稀疏计算的高效性,在3D场景重建和视角合成领域达到了新的state-of-the-art水平。
稀疏视图的新视角合成:技术突破与应用
虽然3DGS在外部视图合成方面表现出色,但研究人员很快将目光投向了更具挑战性的任务:内部结构建模。这标志着从表面补全到体积推断的根本性转变,对于需要深入理解物体内部的应用至关重要。
在医疗影像领域,细粒度的内部重建对于诊断和手术规划至关重要。在机器人和VR领域,系统必须理解物体组成才能实现真实的操作和交互。研究人员已经开发出各种创新技术:在医疗影像中,基于物理的衰减模型通过组织特异性衰减系数调制辐射场,显著提高了CT重建质量;将深度扩散模型和自增强策略融入3DGS流水线,有助于克服稀疏视图数据的限制。
然而,现有方法面临重大挑战:大多数方法专门针对X射线或CT投影,难以推广到其他数据模态(如MRI、fMRI或其他大规模3D遥感数据);严重依赖外部视图,重建结果要么缺少细粒度内部细节,要么需要复杂的正则化而模糊了细微结构;许多混合训练方法依赖深度MLP或每视图扩散细化,导致推理速度低于实时水平。
基于InnerGS的内部结构重建:MRI中的新可能
为了解决这些限制,本文提出了Inner Gaussian Splatting(InnerGS)——专门为内部场景建模设计的新方法。与传统的基于投影的2D高斯渲染不同,该方法使用3D高斯密度来直接建模体积密度。
具体来说,该方法首先在每个深度切片计算条件2D高斯溅射,确定图像平面中的2D高斯中心和影响半径,然后将这些条件2D高斯与沿深度轴的边缘1D高斯结合,形成完整的3DGS密度。这使得能够执行与3DGS相同的基于图块的栅格化过程,从而从稀疏切片数据重建平滑且详细的内部结构。
该方法的三大核心贡献:
创新框架:引入内部高斯溅射框架,利用3D高斯溅射进行直接体积推断,实现从稀疏、无姿态切片数据高保真重建复杂内部结构
高效流水线:提出以条件溅射为中心的高效、基于切片的渲染流水线,动态适应每个2D切片的高斯采样,相比启发式投影方法提高了计算效率和重建精度
即插即用实现:提供即插即用的CUDA实现,并在多个医疗数据集上证明方法的有效性,能够重建静态场景(如脑部和心脏MRI)以及4D动态序列(如腕部运动和脑部fMRI数据)
图1:两种栅格化采样方法示意图:(上)3D椭球投影计算立方体并在所有切片上投影相同的边界框,(下)条件溅射基于条件高斯为每个切片调整边界框
内部场景的3D高斯表示:如何实现精细建模?
在标准3DGS框架中,每个高斯被投影到2D图像平面,产生一个2D椭圆溅射,其均值和协方差由3D高斯通过相机的视图和投影矩阵变换得到。然而,这种基于投影的机制从根本上不适合建模内部体积结构,原因有二:学习到的高斯集中在物体表面,内部体积大部分为空或未定义;基于投影的渲染流水线依赖相机参数(视图和投影矩阵),而这些在切片数据中不存在。
为了克服这些限制,InnerGS的目标是定义一个能够直接建模体积密度的场景表示。考虑2D切片上的任何像素(u,v),其中切片位于给定轴的深度t处。不依赖投影,而是计算每个高斯对像素的贡献为pᵢ(u,v,t),从而像素的最终颜色计算为:
体积密度计算公式:通过直接建模连续体积密度,实现在任意深度合成新切片
这种内部3D表示同时受益于连续(NeRF)和离散建模(Mesh):高斯的连续性质允许无缝体积插值,实现平滑且详细的内部结构重建;同时,将体积表示为离散的高斯集合提供了显式和可解释的表示,使方法高效且适用于医疗影像等应用。
在渲染过程中,3DGS避免在每个像素计算所有高斯。相反,每个高斯被投影到图像平面作为2D椭圆溅射,并计算其3σ范围来定义识别重叠像素的边界框。因此,只为每个像素采样候选高斯的子集,显著降低计算成本。
为了实现高效的候选采样,InnerGS提出了两种方法:3D椭球投影和条件溅射。3D椭球投影方法将3D高斯的范围近似为球体,其半径由高斯椭球的最大轴长度决定;条件溅射方法采用条件公式计算每个高斯在单个切片上的范围,通过因子化高斯结构将点pᵢ(u,v,t)溅射到给定深度t的2D平面上。
动态MRI重建:捕捉实时解剖学变化的技术革新
超越静态解剖重建,本框架展示了其在动态磁共振成像(MRI)数据中的多功能性。这项任务带来了独特挑战:从时间分辨的MRI序列中建模解剖结构和生理活动的时间变化。目标是基于稀疏获取的多切片观测,忠实地重建这些动态变化 across full 3D volumes。
为了处理多样动态MRI模态中的时间动态,本方法 adapts the 4D Gaussian Splatting framework。一组静态3D高斯代表规范解剖结构,而一个学习的变形场网络使用时空编码器和轻量级MLP预测每帧的位置、协方差、颜色和不透明度变化。实现了一个自定义数据加载器,以同步处理每个时间戳的所有切片,确保 inter-slice consistency。
在手腕运动MRI数据集上验证本方法,该数据集包含38个时间帧,每个帧有12个手腕切片视图,分辨率为64x64。使用33帧进行训练,保留每第8帧进行测试。作为强静态基线,使用前一时间戳的地面真实图像作为当前测试帧的预测,模拟一个完美记忆并重用 prior anatomical structure 的 oracle 模型, without modeling temporal dynamics。
初始化35^3 3D高斯在规范空间中,训练模型约45分钟收敛。表4展示了本方法与基线的比较,显示本方法 consistently outperforms the baseline, with particularly large gains at later timestamps with larger anatomical motion。
图4:时间=16时所有轴向切片的手腕MR重建,带有每切片PSNR值
图5:两个轴向切片(顶部切片1,底部切片5) across test timestamps 的手腕运动MR重建。对于每个切片,预测重建(pred)与地面真实图像(gt)比较。本方法捕捉了 temporally coherent anatomical motion across both shallow and deep wrist structures
这些结果突显了本方法捕捉非平凡解剖变化的能力,而静态模型无法处理。此外,在脑功能MRI(fMRI)数据上进一步验证,本方法冻结所有几何相关参数,只允许颜色和不透明度随时间变化,直接捕捉由神经活动引起的 voxel-wise radiance changes。
图8:fMRI切片上的定性比较。对于两个代表性时间点和切片,比较静态基线(前一帧)、本模型预测和地面真实。红框突出显示有 noticeable signal change 的区域。本方法产生更 sharp and consistent activation patterns, with higher PSNR(右下)
图9:随时间改进的PSNR。在所有20个测试帧上绘制的相对于静态基线的定量PSNR改进。报告中央切片(切片16,对应最活跃的中央脑区域)和所有切片的平均值。本模型 consistently outperforms the baseline, with the most notable gains observed in this central region where BOLD signal changes are strongest
训练采用两阶段策略:首先使用初始帧进行1000次预热迭代构建静态解剖结构,然后进行3000次迭代,其中只有颜色和不透明度随时间演变。使用140帧进行训练,保留每第8帧(共20帧)进行测试。自定义数据加载器确保给定时间戳的所有切片同步处理,以保持 inter-slice consistency。
从脑部到心脏:InnerGS在不同医学成像中的表现
在NIfTI格式的真实世界MRI数据上评估Inner 3DGS重建方法。具体来说,提取沿轴向、矢状和冠状平面的2D切片,将其转换为RGB格式,并将像素值归一化到[0,1]范围。为确保公平空间覆盖,从每个平面均匀采样5%的切片进行测试,其余切片用于训练。
所有实验在单个NVIDIA RTX 3090 GPU上进行。除非另有说明,使用均匀3D网格的42^3点作为高斯的初始位置。模型训练最多1000次迭代,或直到100次迭代内的绝对损失下降 below 1×10^{-4}。报告达到收敛所需的时间,并使用峰值信噪比(PSNR)和结构相似性指数(SSIM)评估重建质量。
对于脑部MRI,使用BrainWeb模拟脑数据库(Cocosco et al., 2016), specifically the normal brain phantom with T1-weighted contrast。为减少数据大小并调整空间分辨率,沿所有三个轴下采样体积因子0.8。最终图像的分辨率为174×145像素(轴向)、145×145像素(冠状)和145×174像素(矢状)。
图2:轴向(顶部)和矢状(底部)视图的脑MR重建。顶部行显示测试集渲染 with PSNR values overlaid。红框突出显示详细重建的区域。在每个放大区域,左补丁是地面真实,右是预测, with L1 errors indicating absolute differences within the region
本方法成功重建了精细解剖结构,如 cortical folds and deep brain boundaries,同时 preserving smooth transitions in homogeneous areas like white matter or cerebrospinal fluid。
对于心脏MRI,使用HVSMR-2.0数据集(Pace et al., 2024), which provides 3D cardiovascular MR images。每个体积在静态阶段捕获全心脏解剖结构。提取沿三个解剖平面的2D切片后, resulting images have typical resolutions of 127×207 pixels(轴向)、127×141 pixels(冠状)和207×141 pixels(矢状)。
定量结果总结在表3中。图3展示了冠状平面的详细重建结果 。
图3:心脏MR重建(冠状视图)
第2轴向切片和第5矢状切片显示异常低PSNR(25.117 dB和25.030 dB)。应用仿射归一化以匹配地面真实的均值和方差,将PSNR分别提高到35.15 dB和32.24 dB。
图6:不同解剖平面的脑MR重建。从上到下分别是轴向、矢状和冠状视图
图7:轴向(顶部)和矢状(底部)平面的心脏MR重建
揭秘条件溅射:高效渲染的核心技术
在渲染过程中,3DGS避免在每个像素计算所有高斯。相反,每个高斯被投影到图像平面作为2D椭圆溅射,并计算其3σ范围来定义识别重叠像素的边界框。因此,只为每个像素采样候选高斯的子集,显著降低计算成本。为了实现高效的候选采样,InnerGS提出了两种方法:3D椭球投影和条件溅射。
方法1: 3D椭球投影。在这种方法中,将3D高斯的范围近似为球体,其半径由高斯椭球的最大轴长度决定。对于具有协方差Σ的高斯,椭球的主轴与Σ的特征向量对齐,其长度由特征值的平方根给出, scaled by a constant。
公式:r_max = 3 * sqrt(max(λ1, λ2, λ3)),其中λ1, λ2, λ3是Σ的特征值。这个公式用于计算高斯椭球的最大半径,以定义其影响范围。
方法2: 条件溅射。在第二种方法中,采用条件公式计算每个高斯在单个切片上的范围, demonstrated on the bottom of Fig 1。具体来说,通过因子化高斯结构将点p_i(u,v,t)溅射到给定深度t的2D平面上。
公式:p_i(u,v,t) = p_i(u,v|t) p_i(t),其中p_i(u,v|t)是给定切片位置t的条件二维高斯,描述图像平面上的横向空间分布,p_i(t)是一维高斯,建模沿深度轴的不确定性或分布。这个因子化允许高效计算高斯的贡献。
突破表面!3D高斯溅射首次实现内部场景渲染,医疗影像迎来新革命