当前位置: 首页 > news >正文

腾讯混元P3-SAM: Native 3D Part Segmentation

文章目录

  • 0. 论文项目地址
  • 1. 论文题目与研究方向
  • 2. 主要研究问题(研究动机)
  • 3. 方法概述(技术路线、模型或实验方法)
    • (1)总体框架:P3-SAM
    • (2)模型结构
    • (3)自动化分割算法
    • (4) 训练数据与策略
  • 4. 主要结果与结论
  • 5. 创新点与贡献
  • 6. 存在的不足或局限性

0. 论文项目地址

论文:https://arxiv.org/pdf/2509.06784
Github: https://murcherful.github.io/P3-SAM/

1. 论文题目与研究方向

题目: P3-SAM: Native 3D Part Segmentation

Point-Promptable Part Segmentation Model 点提示式部件分割模型

研究方向: 三维(3D)形状的部件级分割(part segmentation),重点在于从原生3D数据中实现自动化、无类别约束、可交互的部件分割


2. 主要研究问题(研究动机)

现有3D分割方法存在以下问题:

  • 依赖预定义类别标签无法泛化到任意形状或任意部件。

  • 使用2D模型迁移至3D(2D lifting)时存在显著的域差距与三维一致性问题,鲁棒性差
    SAMesh 示意图(2D-3D 方案)
    ![[Pasted image 20251011160904.png]]

    SAMPart3D(Yang 等人,2024)使用 SAM 对点云投影特征进行分割,然后是利用多模态大模型对部件标注。
    Point-SAM(Zhou 等人,2024)将 SAM 适配到三维点云,并利用 SAM 基于多视图图像设计了一个数据引擎,使用二维数据引擎基于提示点实现部件分割,是 p3-sam 的在主要灵感来源。

  • 多数方法仍需人工输入提示点或部件数量无法实现全自动分割

研究动机:构建一个原生3D端到端模型,仅基于三维点云数据即可自动完成复杂物体的部件分割,同时保持可交互性与高精度。


3. 方法概述(技术路线、模型或实验方法)

(1)总体框架:P3-SAM

  • 核心思想: 借鉴 2D Segment Anything Model (SAM),提出Point-Promptable 3D Segmentation Model

    • P3 - SAM 简化了 SAM 的体系结构。没有采用 SAM 中复杂的分割解码器和多种类型的提示,模型只处理一个正点提示。具体来说,P3 - SAM 包含一个特征提取器,三个分割头和一个 IoU 预测头。
    • 跟SAM一样,创建了一个迄今最大最全的 3D 分割数据集,模型拥有全自动标注流水线,并且用标注进行训练,实现数据-标注循环
  • 主要成果:

    • 提出了一种原生的点提示零件分割模型,不再依赖标签数据
    • 构建全自动分割流水线
    • 使用 3D 点云进行训练,没有 2D 转 3D 的三维一致性问题,精度、鲁棒性更高
  • 输入:三维网格或点云(Point Cloud)+ 单个提示点。

  • 输出:多个多尺度掩膜(mask)及最佳预测的部件分割结果。

(2)模型结构

由三部分组成(见下图 ):

![[Pasted image 20251011103010.png]]

  1. 特征提取器:使用 PointTransformerV3(Sonata)提取多尺度点特征。并使用共享参数的 MLP Fe 处理融合后的多尺度特征,从而增强特征的表达能力。

  2. 两阶段多头分割器(Two-Stage Multi-Head Segmentor)

    • 第一阶段:生成三种尺度的掩膜。
      此时没有全局特征,因此作为中间结果与输入特征图融合后再与全局特征融合,作为第二阶段的输入。
      第一阶段的输入是 fin,输出是 m1, fin 与 m1 融合得到f(1), 再经过 MLPfg 和最大池化得到 fg。
    • 第二阶段:融合全局特征优化结果,提升边界与结构一致性。
      第二阶段的输入是 f (1) 与 fg 的融合,输出为 m2
  3. IoU预测器:自动评估三组掩膜质量,选择最优结果。

(3)自动化分割算法

  • 使用 Farthest Point Sampling (FPS) 生成候选提示点。

  • 模型对每个提示点预测掩膜与IoU分数。

  • 使用NMS(Non-Maximum Suppression,非极大值抑制)去重合并掩膜。

  • 最终通过**投票与洪泛填充(flood fill)**获得完整部件标注。
    ![[Pasted image 20251011103240.png]]

(4) 训练数据与策略

  • 构建了一个原生3D部件数据集(约3.7百万模型),来自 Objaverse、ShapeNet、PartNet 等。

  • 通过自动标注管线生成部件掩膜,并将部分模型修复为 watertight。

watertight
在 3D 建模、CAD 或三维网格(mesh)相关场景中,“watertight” 特指模型是 完全封闭的、无孔洞或缝隙的连续表面
这种模型的特点是:1. 所有边缘都被两个面共享(无 “悬边”);2. 没有缺失的面或未封闭的开口;3. 能形成一个 “密闭体积”(如一个完整的球体、立方体)。

  • 采用 Dice 损失+ Focal 损失结合IoU监督进行优化。
    Dice 是重叠度特化损失, 解决类别不平衡问题
    Focal loss 是难度权重特化损失,解决难样本挖掘问题

  • 引入随机噪声(概率提供噪声点提示)、法向扰动(概率不提供法向量)、混合封闭性数据和非封闭性数据等数据增强提升鲁棒性。


4. 主要结果与结论

  • PartObj-Tiny、PartObj-Tiny-WT、PartNetE 等基准上,P3-SAM在三种任务(全分割、有/无连接约束、交互式分割)中均取得SOTA性能

    • 平均 mIoU 达到 59.9%~81.1%(显著优于 Find3D、PartField、Point-SAM 等)。
  • 实验验证:

    • 对复杂几何结构(如动物、交通工具、植物等)表现稳定。

    • 对 watertight 与非 watertight 模型均具备强泛化性。

  • 支持多种下游应用:

    • 自动/多提示点分割、层次化分割(Hierarchical Segmentation)、3D部件生成(Part Generation)。

在这里插入图片描述

结论: P3-SAM 实现了真正意义上的原生3D自动部件分割,在准确度、泛化性与实时性上均达到领先水平。


5. 创新点与贡献

  1. 首个原生3D点提示可分割模型(Point-Promptable 3D SAM),摆脱2D依赖。

  2. 两阶段多头掩膜结构 + IoU预测器,实现多尺度精细分割与自动掩膜选择。

  3. 全自动3D部件分割算法(FPS + NMS + Flood Fill)。

  4. 超大规模原生3D部件数据集(3.7M模型),具高质量掩膜标签。

  5. 可扩展、多任务能力:支持交互式、层次式、生成式任务。


6. 存在的不足或局限性

  • 模型过度依赖几何表面信息,缺乏对三维空间体积的理解。

  • 训练数据均为表面点云,无法捕获体积一致性(volumetric consistency)

  • 尚未充分结合语义信息或文本提示

  • 对极端复杂或纹理模糊的模型仍可能出现过分割或漏分割

  • 高精度训练需要大量GPU资源(训练约4天,64×H20 GPU)。


http://www.dtcms.com/a/481872.html

相关文章:

  • Gecko SDK从入门到提高(5)
  • Cesium格式模型制作,3dtiles制作B3DM格式文件制作。数字孪生模型制作
  • Andrej Karpathy 发布新项目 nanochat:一个从零开始构建的极简全栈式 ChatGPT 克隆
  • 苍穹外卖[操作步骤+讲解]
  • 用vs2008做网站教程成都旅游景点排名前十
  • 悟空 AI CRM 的回款功能:加速资金回流,保障企业财务健康
  • 奥威BI金蝶数据分析可视化方案:200+开箱即用报表驱动智能决策
  • 盲盒小程序系统开发:未来趋势与长期价值
  • 查找成绩(数组实现)
  • 桃城区网站制作公司做网站注册商标
  • RCE 漏洞全解析:从原理到实战
  • VScode无法获取扩展 Error while fetching extensions.Failed to fetch
  • 用 Docker + Squoosh 打造图片压缩 API 服务
  • 仙桃网站设计公司易拉罐手工制作大全
  • 企业级DevOps选型新思维:从“工具堆砌”到“平台赋能”
  • ThinkPHP8集成RabbitMQ的完整案例实现 原创
  • 一份关于语言模型对齐的技术论述:从基于PPO的RLHF到直接偏好优化
  • 扬州市建设厅网站网站空间在哪里
  • 开源 C++ QT QML 开发(十九)多媒体--音频录制
  • json转excel python
  • 在传输数据时,网络中会出现的问题
  • jenkins在使用中遇到的问题
  • 第8章 zynq uboot更新系统镜像并引导启动和个人心得
  • 网站系统升级建设合同汽车之家官网首页网页
  • 电销外包公司有哪些seo学习网站
  • 基于弱监督病灶增强的模型展开式快速磁共振成像|文献速递-文献分享
  • 十四、OpenCV中的形态学操作
  • 算法279. 完全平方数
  • Prometheus pushgateway学习
  • MySQL索引结构:B树与B+树