SAM-SAM2-SAM3系列(三):Segment Anything 3(SAM 3)技术详解,以及SAM3对 SAM2的升级点
SAM-SAM2-SAM3系列(一):Segment Anything Model(SAM)技术详解与实战 ----------- 见前续博客
SAM-SAM2-SAM3系列(二):Segment Anything 2(SAM 2)技术详解,以及SAM2对 SAM的升级点 ----------- 见前续博客
SAM-SAM2-SAM3系列(三):Segment Anything 3(SAM 3)技术详解,以及SAM3对 SAM2的升级点 ----------- 本文
1. SAM 3 是什么:一句话概述(基于已公开信息)
-
定位:延续 “可提示分割(promptable segmentation)”范式,把 自然语言(文本) 纳入一等公民的提示形式,面向图像与视频的对象分割与跨帧传播/跟踪。多方参会报道明确“支持 text-based prompts”。 newsletter.visiongeek.io+1
-
状态:Meta 已上线 SAM 3 等候/登记页(需登录可见),并在多渠道提及“今年夏天/今夏推出/Coming soon”。目前未见公开论文/代码/权重。 Meta AI+1
-
延续:承接 SAM 2 的视频流式记忆与交互传播思想,在此基础上增加原生文本提示能力,目标是更少交互、更强可用性。这与 SAM 2 的“图像+视频、流式记忆、交互传播”的定位形成自然演进。 arXiv+1
2. 为什么需要 SAM 3:从“点击/框”到“自然语言”的范式跃迁
-
现实痛点:SAM/SAM 2 在工业落地中广泛采用“文本→检测(GroundingDINO / Florence-2 等)→ SAM/SAM 2 精细分割”的二段式组合来获取“带语义的掩膜”。这会引入额外模型/部署复杂度、提示拼装与误差传递。SAM 3 若原生支持文本提示,可减少链路复杂度、提升迭代效率。第三方会后总结也将“原生文本提示”作为 SAM 3 的核心变化点。 GitHub+1
-
视频场景:在视频交互分割/VOS 中,用“文本概念 + 少量点击/修正”直达整段传播,显著降低编辑与审核成本(会后转述指出“自然语言分割与跟踪”)。 X (formerly Twitter)
3. 与 SAM 2 的对比:已确认与高概率变化点
说明:仅列公开可核实或由官方页面/会后多源反复提及的点;未公开的实现细节不做臆测。
维度 | SAM 2(已开源) | SAM 3(已官宣/待发布) |
---|---|---|
任务域 | 图像 + 视频的可提示分割;交互传播;流式记忆 | 在上列基础上新增:原生文本提示(自然语言),用于图像与视频对象的分割/跟踪 |
提示形态 | 点/框/掩膜;(文本需外接 grounding 检测) | 文本提示成为一等公民(来自 LlamaCon 报道与报名页文案) |
架构走向 | Hiera 编码器 + Memory Attention + Presence 头 + two-way 解码器;数据引擎 SA-V | 延续视频/记忆范式,并引入文本对齐模块(官方未公开细节;以会后“text-based prompts”能力为边界) |
代码/权重 | 论文 + GitHub + HF 权重完整开放(含 2.1 新权重) | 未公开(提供 sam3 登记/等候页;无仓库/论文) |
现状 | 稳定可用,社区生态完备 | 处于发布前夕/早期登记阶段 |
(SAM 2 的论文、开源仓库、2.1 权重与 SA-V 数据引擎均已公开;上表关于 SAM 2 的信息可由官方论文与仓库核实。) arXiv+2GitHub+2
4. 可能的体系结构与 API 形态(基于“最小假设”的工程推演)
下述推演以 SAM 2 的已知接口 为基线,结合 “SAM 3 原生文本提示” 的最小增量来推测API 形态,便于你提前改造代码结构。非官方,以最终发布为准。
-
图像侧:在
SAM2ImagePredictor
同类接口上增加text_prompt="a red truck"
等参数;或提供独立的SAM3ImagePredictor
,内部完成文本→区域注意或文本→候选 mask映射,再走 two-way 解码器。 -
视频侧:在
SAM2VideoPredictor
的状态机上新增add_text_prompt(...)
;文本提示首次注入后,走流式记忆传播,必要处再加少量点/框修正。 -
输出:仍返回候选掩膜与质量分(IoU 预测),并可能附带“文本相关性分”。
以上仅为工程位移的合理推演,以最终文档为准。
5. 在 SAM 3 正式开放前,你能做什么:用既有工具“模拟” SAM 3 能力
目标:在今天就把“文本→掩膜(图像/视频)”跑通,以便 SAM 3 发布后 平滑切换。
5.1 文本 → 视频掩膜:GroundedDINO / Florence-2 + SAM 2(推荐范式)
-
文本 grounding:用 GroundingDINO / Florence-2 把自然语言转成框/点(图像或关键帧)。
-
分割与传播:把框/点喂给 SAM 2,在首帧生成掩膜并初始化记忆状态;随后 逐帧 propagate。
-
纠偏:当出现漂移/遮挡,补充一次文本或轻微点击修正即可。
SAM 2 的论文与官方仓库已给出视频预测 API 与流式记忆实现,组合 GroundedDINO/Florence-2 属于社区成熟做法。 arXiv+2GitHub+2
最小可用代码骨架(伪):
# 1) 文本→检测框(以 GroundingDINO/Florence-2 任一为例,略)
boxes = text_to_boxes(frame0, text="debris on road") # List[xyxy]# 2) SAM2 视频预测器
from sam2.build_sam import build_sam2_video_predictor
pred = build_sam2_video_predictor(cfg, ckpt) # 见 SAM2 官方
state = pred.init_state(video_frames)# 3) 首帧注入提示并得到 mask
pred.add_new_points_or_box(state, prompts={"frame_idx":0, "boxes":boxes})
for t, obj_ids, masks in pred.propagate_in_video(state):save_mask(masks, t)
(真实代码以 SAM 2 官方 README/示例为准。) GitHub
5.2 提前改造你的代码结构
-
抽象“提示层”:把
point/box/mask/text
统一为Prompt
对象;当 SAM 3 到来时仅替换TextPromptHandler
。 -
可插拔 grounding:把 GroundingDINO/Florence-2 当作占位实现;SAM 3 发布后切换为原生文本提示后端。
-
评估面板:保留 clicks count、propagation stability、语言相关性 等指标,以便横向对比 SAM 2 与 SAM 3。
6. 面向业务的落地建议(以“高速事件/门架”场景为例)
-
今天就能做:
-
以“抛洒物(debris)、烟火/烟雾(smoke/fire)、行人上路(pedestrian on highway)、落石(fallen rock)”等文本作为 query,GroundingDINO/Florence-2 产框 → SAM 2 精分 → 视频传播。
-
结合道路多边形(主车道/应急车道)与形态规则(面积、长宽比、纹理)做第一层过滤,再把疑难样本交由多模态模型二次确认。 GitHub
-
-
SAM 3 发布后:
-
用原生文本提示直接在关键帧定位对象并传播,减少一层 grounding 依赖。
-
在误检/漏检处,尝试“一句话 + 一击修正”替代多次点击,降低审核成本。
-
7. 迁移清单:从 SAM 2 升级到 SAM 3
-
依赖/环境:保留 PyTorch-2.x 与 AMP/bfloat16 路线;等候 SAM 3 的最低版本与编译/加速选项(SAM 2 已支持
torch.compile
与 VOS 优化路径)。 GitHub -
接口:将自研封装从
SAM2Image/VideoPredictor
升级为SAM3*Predictor
的适配层;Prompt 抽象提前到位。 -
评测基线:固定一批视频/帧,对比“交互次数、J&F / mIoU、稳定性分、端到端延迟”。(SAM 2 的基线与 API 可直接复用。) arXiv
-
回滚预案:在 SAM 3 早期版本不稳定时,保留 “grounding + SAM 2” 的灰度链路,可按业务路由选择。
8. 目前已知/未知信息汇总(2025-10-11)
-
已知(官方/会场信号)
-
Meta 提供 SAM 3 等候/登记页(
ai.meta.com/sam3
)。 Meta AI -
LlamaCon 2025 现场:SAM 3 今夏/即将发布,支持文本提示(图像&视频),现场有演示。 newsletter.visiongeek.io+1
-
-
未知(等待正式文档)
-
论文/模型细节(骨干、记忆与文本对齐机制、训练数据/许可)
-
正式 API/推理性能(与 SAM 2 的量化对比、移动端/边缘支持)
-
开源与授权条款(是否 Apache-2.0 延续)
-
9. 附:SAM 2 的权威参考(便于你建立对照基线)
-
论文:SAM 2:Segment Anything in Images and Videos(2024-08)。含“流式记忆”“数据引擎 SA-V”“视频交互 API”细节。 arXiv
-
开源仓库:
facebookresearch/sam2
(含SAM2ImagePredictor
/VideoPredictor
、2.1 权重、示例 notebook)。 GitHub -
研究主页/出版页:Meta Research 的 SAM 2 页面。 Meta AI
10. 一页纸总结(给产品/技术汇报)
-
SAM 3 的核心新增:原生文本提示(自然语言)→ 直接驱动图像与视频的对象分割/传播,减少“grounding→SAM”的链路复杂度。 newsletter.visiongeek.io+1
-
与 SAM 2 的关系:延续 流式记忆与交互传播,在提示层向上扩展文本;SAM 2 仍是当前稳态可用方案。 arXiv
-
当前建议:立即用“GroundingDINO/Florence-2 + SAM 2”上线文本分割链路,并将“提示层”抽象为可插拔;待 SAM 3 发布后平滑切换。 GitHub
参考与来源(持续更新)
-
SAM 3 等候/登记页(需登录):ai.meta.com/sam3。Meta AI
-
LlamaCon 2025 会后多源转述(SAM 3 将支持文本提示、今夏发布):VisionGeek Newsletter、X/Twitter、LinkedIn 等。Hacker News+3newsletter.visiongeek.io+3X (formerly Twitter)+3
-
SAM 2 论文/主页/仓库:arXiv:2408.00714;Meta Research 发布页;GitHub: facebookresearch/sam2。arXiv+2Meta AI+2