当前位置: 首页 > news >正文

SAM-SAM2-SAM3系列(三):Segment Anything 3(SAM 3)技术详解,以及SAM3对 SAM2的升级点

SAM-SAM2-SAM3系列(一):Segment Anything Model(SAM)技术详解与实战 ----------- 见前续博客

SAM-SAM2-SAM3系列(二):Segment Anything 2(SAM 2)技术详解,以及SAM2对 SAM的升级点 ----------- 见前续博客

SAM-SAM2-SAM3系列(三):Segment Anything 3(SAM 3)技术详解,以及SAM3对 SAM2的升级点  ----------- 本文

1. SAM 3 是什么:一句话概述(基于已公开信息)

  • 定位:延续 “可提示分割(promptable segmentation)”范式,把 自然语言(文本) 纳入一等公民的提示形式,面向图像与视频的对象分割与跨帧传播/跟踪。多方参会报道明确“支持 text-based prompts”。 newsletter.visiongeek.io+1

  • 状态:Meta 已上线 SAM 3 等候/登记页(需登录可见),并在多渠道提及“今年夏天/今夏推出/Coming soon”。目前未见公开论文/代码/权重。 Meta AI+1

  • 延续:承接 SAM 2 的视频流式记忆与交互传播思想,在此基础上增加原生文本提示能力,目标是更少交互、更强可用性。这与 SAM 2 的“图像+视频、流式记忆、交互传播”的定位形成自然演进。 arXiv+1


2. 为什么需要 SAM 3:从“点击/框”到“自然语言”的范式跃迁

  • 现实痛点:SAM/SAM 2 在工业落地中广泛采用“文本→检测(GroundingDINO / Florence-2 等)→ SAM/SAM 2 精细分割”的二段式组合来获取“带语义的掩膜”。这会引入额外模型/部署复杂度、提示拼装与误差传递。SAM 3 若原生支持文本提示,可减少链路复杂度、提升迭代效率。第三方会后总结也将“原生文本提示”作为 SAM 3 的核心变化点。 GitHub+1

  • 视频场景:在视频交互分割/VOS 中,用“文本概念 + 少量点击/修正”直达整段传播,显著降低编辑与审核成本(会后转述指出“自然语言分割与跟踪”)。 X (formerly Twitter)


3. 与 SAM 2 的对比:已确认与高概率变化点

说明:仅列公开可核实或由官方页面/会后多源反复提及的点;未公开的实现细节不做臆测

维度SAM 2(已开源)SAM 3(已官宣/待发布)
任务域图像 + 视频的可提示分割;交互传播;流式记忆在上列基础上新增:原生文本提示(自然语言),用于图像与视频对象的分割/跟踪
提示形态点/框/掩膜;(文本需外接 grounding 检测)文本提示成为一等公民(来自 LlamaCon 报道与报名页文案)
架构走向Hiera 编码器 + Memory Attention + Presence 头 + two-way 解码器;数据引擎 SA-V延续视频/记忆范式,并引入文本对齐模块(官方未公开细节;以会后“text-based prompts”能力为边界)
代码/权重论文 + GitHub + HF 权重完整开放(含 2.1 新权重)未公开(提供 sam3 登记/等候页;无仓库/论文)
现状稳定可用,社区生态完备处于发布前夕/早期登记阶段

(SAM 2 的论文、开源仓库、2.1 权重与 SA-V 数据引擎均已公开;上表关于 SAM 2 的信息可由官方论文与仓库核实。) arXiv+2GitHub+2


4. 可能的体系结构与 API 形态(基于“最小假设”的工程推演)

下述推演以 SAM 2 的已知接口 为基线,结合 “SAM 3 原生文本提示” 的最小增量来推测API 形态,便于你提前改造代码结构。非官方,以最终发布为准。

  • 图像侧:在 SAM2ImagePredictor 同类接口上增加 text_prompt="a red truck" 等参数;或提供独立的 SAM3ImagePredictor,内部完成文本→区域注意文本→候选 mask映射,再走 two-way 解码器。

  • 视频侧:在 SAM2VideoPredictor 的状态机上新增 add_text_prompt(...);文本提示首次注入后,走流式记忆传播,必要处再加少量点/框修正。

  • 输出:仍返回候选掩膜与质量分(IoU 预测),并可能附带“文本相关性分”。

以上仅为工程位移合理推演,以最终文档为准。


5. 在 SAM 3 正式开放前,你能做什么:用既有工具“模拟” SAM 3 能力

目标:在今天就把“文本→掩膜(图像/视频)”跑通,以便 SAM 3 发布后 平滑切换。

5.1 文本 → 视频掩膜:GroundedDINO / Florence-2 + SAM 2(推荐范式)

  1. 文本 grounding:用 GroundingDINO / Florence-2 把自然语言转成框/点(图像或关键帧)。

  2. 分割与传播:把框/点喂给 SAM 2,在首帧生成掩膜并初始化记忆状态;随后 逐帧 propagate

  3. 纠偏:当出现漂移/遮挡,补充一次文本或轻微点击修正即可。

SAM 2 的论文与官方仓库已给出视频预测 API流式记忆实现,组合 GroundedDINO/Florence-2 属于社区成熟做法。 arXiv+2GitHub+2

最小可用代码骨架(伪)

# 1) 文本→检测框(以 GroundingDINO/Florence-2 任一为例,略)
boxes = text_to_boxes(frame0, text="debris on road")   # List[xyxy]# 2) SAM2 视频预测器
from sam2.build_sam import build_sam2_video_predictor
pred = build_sam2_video_predictor(cfg, ckpt)  # 见 SAM2 官方
state = pred.init_state(video_frames)# 3) 首帧注入提示并得到 mask
pred.add_new_points_or_box(state, prompts={"frame_idx":0, "boxes":boxes})
for t, obj_ids, masks in pred.propagate_in_video(state):save_mask(masks, t)

(真实代码以 SAM 2 官方 README/示例为准。) GitHub

5.2 提前改造你的代码结构

  • 抽象“提示层”:把 point/box/mask/text 统一为 Prompt 对象;当 SAM 3 到来时仅替换 TextPromptHandler

  • 可插拔 grounding:把 GroundingDINO/Florence-2 当作占位实现;SAM 3 发布后切换为原生文本提示后端

  • 评估面板:保留 clicks countpropagation stability语言相关性 等指标,以便横向对比 SAM 2 与 SAM 3。


6. 面向业务的落地建议(以“高速事件/门架”场景为例)

  • 今天就能做

    • 以“抛洒物(debris)烟火/烟雾(smoke/fire)行人上路(pedestrian on highway)落石(fallen rock)”等文本作为 query,GroundingDINO/Florence-2 产框 → SAM 2 精分 → 视频传播

    • 结合道路多边形(主车道/应急车道)与形态规则(面积、长宽比、纹理)做第一层过滤,再把疑难样本交由多模态模型二次确认。 GitHub

  • SAM 3 发布后

    • 原生文本提示直接在关键帧定位对象并传播,减少一层 grounding 依赖

    • 误检/漏检处,尝试“一句话 + 一击修正”替代多次点击,降低审核成本。


7. 迁移清单:从 SAM 2 升级到 SAM 3

  1. 依赖/环境:保留 PyTorch-2.x 与 AMP/bfloat16 路线;等候 SAM 3 的最低版本与编译/加速选项(SAM 2 已支持 torch.compile 与 VOS 优化路径)。 GitHub

  2. 接口:将自研封装从 SAM2Image/VideoPredictor 升级为 SAM3*Predictor适配层Prompt 抽象提前到位。

  3. 评测基线:固定一批视频/帧,对比“交互次数J&F / mIoU稳定性分端到端延迟”。(SAM 2 的基线与 API 可直接复用。) arXiv

  4. 回滚预案:在 SAM 3 早期版本不稳定时,保留 “grounding + SAM 2” 的灰度链路,可按业务路由选择。


8. 目前已知/未知信息汇总(2025-10-11)

  • 已知(官方/会场信号)

    • Meta 提供 SAM 3 等候/登记页ai.meta.com/sam3)。 Meta AI

    • LlamaCon 2025 现场:SAM 3 今夏/即将发布,支持文本提示(图像&视频),现场有演示。 newsletter.visiongeek.io+1

  • 未知(等待正式文档)

    • 论文/模型细节(骨干、记忆与文本对齐机制、训练数据/许可)

    • 正式 API/推理性能(与 SAM 2 的量化对比、移动端/边缘支持)

    • 开源与授权条款(是否 Apache-2.0 延续)


9. 附:SAM 2 的权威参考(便于你建立对照基线)

  • 论文:SAM 2:Segment Anything in Images and Videos(2024-08)。含“流式记忆”“数据引擎 SA-V”“视频交互 API”细节。 arXiv

  • 开源仓库facebookresearch/sam2(含 SAM2ImagePredictor/VideoPredictor、2.1 权重、示例 notebook)。 GitHub

  • 研究主页/出版页:Meta Research 的 SAM 2 页面。 Meta AI


10. 一页纸总结(给产品/技术汇报)

  • SAM 3 的核心新增原生文本提示(自然语言)→ 直接驱动图像与视频的对象分割/传播,减少“grounding→SAM”的链路复杂度。 newsletter.visiongeek.io+1

  • 与 SAM 2 的关系:延续 流式记忆与交互传播,在提示层向上扩展文本;SAM 2 仍是当前稳态可用方案。 arXiv

  • 当前建议立即用“GroundingDINO/Florence-2 + SAM 2”上线文本分割链路,并将“提示层”抽象为可插拔;待 SAM 3 发布后平滑切换。 GitHub


参考与来源(持续更新)

  • SAM 3 等候/登记页(需登录):ai.meta.com/sam3。Meta AI

  • LlamaCon 2025 会后多源转述(SAM 3 将支持文本提示、今夏发布):VisionGeek Newsletter、X/Twitter、LinkedIn 等。Hacker News+3newsletter.visiongeek.io+3X (formerly Twitter)+3

  • SAM 2 论文/主页/仓库:arXiv:2408.00714;Meta Research 发布页;GitHub: facebookresearch/sam2。arXiv+2Meta AI+2

http://www.dtcms.com/a/471744.html

相关文章:

  • 网站怎么改版自适应如何重新安装电脑上的wordpress
  • 织梦怎么做的网站云南昆明网络公司有哪些
  • 中国建设银行上海分行信息网站广西网站建设企业
  • 房地产公司网站下载wordpress能开发app
  • Codeforces Beta Round 6 C - Alice, Bob and Chocolate
  • 工业大数据处理分析技术
  • 临武县网站建设专业网络推广方案xiala11
  • 河北省 建设执业注册中心网站上海网站企业
  • 搜索引擎优化网站版面设计图大全简单又漂亮
  • 网站建设的财务分险游戏制作专业
  • 政务网站集约化建设难点与建议wordpress首页修改无效
  • 制作网站平台wordpress 文章列表只显示标题
  • 永川区门户网站建设轨迹免费装修设计软件
  • Python第十二节 装饰器使用详解及注意事项
  • 传媒类网站模板做网站怎么赚流量
  • 网站建设 技术方案模板wordpress 外国主机
  • 惠州市博罗县建设局网站双线网站选服务器
  • spring ai用法
  • linux系统服务器怎么做网站外贸网站建设注意事项
  • c做网站教程哈尔滨学网页设计
  • 什么网站是专门做艺术字的网站一定要备案
  • 二手房网站排行屯济宁做网站公司
  • 内存频率重要吗?对游戏影响大不大?玖合异刃DDR5 8000Mhz评测
  • mem 设备控制 GPIO - C程序通过sysfs文件系统使用GPIO中断
  • 简约风格装修seo排名如何
  • 有关使用AVX,EIGEN等加速方法过程中cmake选项的说明
  • 二手书交易网站开发背景WordPress发邮件4.4.1
  • 【项目开发Trip第2站】casbin库与身份权限划分
  • POET 宣布投资7500万美元
  • wordpress底部插件郑州seo顾问热狗网