当前位置：首页 > news >正文

SAM-SAM2-SAM3系列(三)：Segment Anything 3（SAM 3）技术详解，以及SAM3对 SAM2的升级点

news 2025/10/12 16:46:40

SAM-SAM2-SAM3系列(一)：Segment Anything Model（SAM）技术详解与实战 ----------- 见前续博客

SAM-SAM2-SAM3系列(二)：Segment Anything 2（SAM 2）技术详解，以及SAM2对 SAM的升级点 ----------- 见前续博客

SAM-SAM2-SAM3系列(三)：Segment Anything 3（SAM 3）技术详解，以及SAM3对 SAM2的升级点 ----------- 本文

1. SAM 3 是什么：一句话概述（基于已公开信息）

定位：延续 “可提示分割（promptable segmentation）”范式，把 自然语言（文本） 纳入一等公民的提示形式，面向图像与视频的对象分割与跨帧传播/跟踪。多方参会报道明确“支持 text-based prompts”。 newsletter.visiongeek.io+1
状态：Meta 已上线 SAM 3 等候/登记页（需登录可见），并在多渠道提及“今年夏天/今夏推出/Coming soon”。目前未见公开论文/代码/权重。 Meta AI+1
延续：承接 SAM 2 的视频流式记忆与交互传播思想，在此基础上增加原生文本提示能力，目标是更少交互、更强可用性。这与 SAM 2 的“图像+视频、流式记忆、交互传播”的定位形成自然演进。 arXiv+1

2. 为什么需要 SAM 3：从“点击/框”到“自然语言”的范式跃迁

现实痛点：SAM/SAM 2 在工业落地中广泛采用“文本→检测（GroundingDINO / Florence-2 等）→ SAM/SAM 2 精细分割”的二段式组合来获取“带语义的掩膜”。这会引入额外模型/部署复杂度、提示拼装与误差传递。SAM 3 若原生支持文本提示，可减少链路复杂度、提升迭代效率。第三方会后总结也将“原生文本提示”作为 SAM 3 的核心变化点。 GitHub+1
视频场景：在视频交互分割/VOS 中，用“文本概念 + 少量点击/修正”直达整段传播，显著降低编辑与审核成本（会后转述指出“自然语言分割与跟踪”）。 X (formerly Twitter)

3. 与 SAM 2 的对比：已确认与高概率变化点

说明：仅列公开可核实或由官方页面/会后多源反复提及的点；未公开的实现细节不做臆测。

维度	SAM 2（已开源）	SAM 3（已官宣/待发布）
任务域	图像 + 视频的可提示分割；交互传播；流式记忆	在上列基础上新增：原生文本提示（自然语言），用于图像与视频对象的分割/跟踪
提示形态	点/框/掩膜；（文本需外接 grounding 检测）	文本提示成为一等公民（来自 LlamaCon 报道与报名页文案）
架构走向	Hiera 编码器 + Memory Attention + Presence 头 + two-way 解码器；数据引擎 SA-V	延续视频/记忆范式，并引入文本对齐模块（官方未公开细节；以会后“text-based prompts”能力为边界）
代码/权重	论文 + GitHub + HF 权重完整开放（含 2.1 新权重）	未公开（提供 sam3 登记/等候页；无仓库/论文）
现状	稳定可用，社区生态完备	处于发布前夕/早期登记阶段

（SAM 2 的论文、开源仓库、2.1 权重与 SA-V 数据引擎均已公开；上表关于 SAM 2 的信息可由官方论文与仓库核实。） arXiv+2GitHub+2

4. 可能的体系结构与 API 形态（基于“最小假设”的工程推演）

下述推演以 SAM 2 的已知接口 为基线，结合 “SAM 3 原生文本提示” 的最小增量来推测API 形态，便于你提前改造代码结构。非官方，以最终发布为准。

图像侧：在 SAM2ImagePredictor 同类接口上增加 text_prompt="a red truck" 等参数；或提供独立的 SAM3ImagePredictor，内部完成文本→区域注意或文本→候选 mask映射，再走 two-way 解码器。
视频侧：在 SAM2VideoPredictor 的状态机上新增 add_text_prompt(...)；文本提示首次注入后，走流式记忆传播，必要处再加少量点/框修正。
输出：仍返回候选掩膜与质量分（IoU 预测），并可能附带“文本相关性分”。

以上仅为工程位移的合理推演，以最终文档为准。

5. 在 SAM 3 正式开放前，你能做什么：用既有工具“模拟” SAM 3 能力

目标：在今天就把“文本→掩膜（图像/视频）”跑通，以便 SAM 3 发布后 平滑切换。

5.1 文本 → 视频掩膜：GroundedDINO / Florence-2 + SAM 2（推荐范式）

文本 grounding：用 GroundingDINO / Florence-2 把自然语言转成框/点（图像或关键帧）。
分割与传播：把框/点喂给 SAM 2，在首帧生成掩膜并初始化记忆状态；随后 逐帧 propagate。
纠偏：当出现漂移/遮挡，补充一次文本或轻微点击修正即可。

SAM 2 的论文与官方仓库已给出视频预测 API 与流式记忆实现，组合 GroundedDINO/Florence-2 属于社区成熟做法。 arXiv+2GitHub+2

最小可用代码骨架（伪）：

# 1) 文本→检测框（以 GroundingDINO/Florence-2 任一为例，略）
boxes = text_to_boxes(frame0, text="debris on road")   # List[xyxy]# 2) SAM2 视频预测器
from sam2.build_sam import build_sam2_video_predictor
pred = build_sam2_video_predictor(cfg, ckpt)  # 见 SAM2 官方
state = pred.init_state(video_frames)# 3) 首帧注入提示并得到 mask
pred.add_new_points_or_box(state, prompts={"frame_idx":0, "boxes":boxes})
for t, obj_ids, masks in pred.propagate_in_video(state):save_mask(masks, t)

（真实代码以 SAM 2 官方 README/示例为准。） GitHub

5.2 提前改造你的代码结构

抽象“提示层”：把 point/box/mask/text 统一为 Prompt 对象；当 SAM 3 到来时仅替换 TextPromptHandler。
可插拔 grounding：把 GroundingDINO/Florence-2 当作占位实现；SAM 3 发布后切换为原生文本提示后端。
评估面板：保留 clicks count、propagation stability、语言相关性 等指标，以便横向对比 SAM 2 与 SAM 3。

6. 面向业务的落地建议（以“高速事件/门架”场景为例）

今天就能做：
- 以“抛洒物（debris）、烟火/烟雾（smoke/fire）、行人上路（pedestrian on highway）、落石（fallen rock）”等文本作为 query，GroundingDINO/Florence-2 产框 → SAM 2 精分 → 视频传播。
- 结合道路多边形（主车道/应急车道）与形态规则（面积、长宽比、纹理）做第一层过滤，再把疑难样本交由多模态模型二次确认。 GitHub
SAM 3 发布后：
- 用原生文本提示直接在关键帧定位对象并传播，减少一层 grounding 依赖。
- 在误检/漏检处，尝试“一句话 + 一击修正”替代多次点击，降低审核成本。

7. 迁移清单：从 SAM 2 升级到 SAM 3

依赖/环境：保留 PyTorch-2.x 与 AMP/bfloat16 路线；等候 SAM 3 的最低版本与编译/加速选项（SAM 2 已支持 torch.compile 与 VOS 优化路径）。 GitHub
接口：将自研封装从 SAM2Image/VideoPredictor 升级为 SAM3*Predictor 的适配层；Prompt 抽象提前到位。
评测基线：固定一批视频/帧，对比“交互次数、J&F / mIoU、稳定性分、端到端延迟”。（SAM 2 的基线与 API 可直接复用。） arXiv
回滚预案：在 SAM 3 早期版本不稳定时，保留 “grounding + SAM 2” 的灰度链路，可按业务路由选择。

8. 目前已知/未知信息汇总（2025-10-11）

已知（官方/会场信号）
- Meta 提供 SAM 3 等候/登记页（ai.meta.com/sam3）。 Meta AI
- LlamaCon 2025 现场：SAM 3 今夏/即将发布，支持文本提示（图像&视频），现场有演示。 newsletter.visiongeek.io+1
未知（等待正式文档）
- 论文/模型细节（骨干、记忆与文本对齐机制、训练数据/许可）
- 正式 API/推理性能（与 SAM 2 的量化对比、移动端/边缘支持）
- 开源与授权条款（是否 Apache-2.0 延续）

9. 附：SAM 2 的权威参考（便于你建立对照基线）

论文：SAM 2：Segment Anything in Images and Videos（2024-08）。含“流式记忆”“数据引擎 SA-V”“视频交互 API”细节。 arXiv
开源仓库：facebookresearch/sam2（含 SAM2ImagePredictor/VideoPredictor、2.1 权重、示例 notebook）。 GitHub
研究主页/出版页：Meta Research 的 SAM 2 页面。 Meta AI

10. 一页纸总结（给产品/技术汇报）

SAM 3 的核心新增：原生文本提示（自然语言）→ 直接驱动图像与视频的对象分割/传播，减少“grounding→SAM”的链路复杂度。 newsletter.visiongeek.io+1
与 SAM 2 的关系：延续 流式记忆与交互传播，在提示层向上扩展文本；SAM 2 仍是当前稳态可用方案。 arXiv
当前建议：立即用“GroundingDINO/Florence-2 + SAM 2”上线文本分割链路，并将“提示层”抽象为可插拔；待 SAM 3 发布后平滑切换。 GitHub

参考与来源（持续更新）

SAM 3 等候/登记页（需登录）：ai.meta.com/sam3。Meta AI
LlamaCon 2025 会后多源转述（SAM 3 将支持文本提示、今夏发布）：VisionGeek Newsletter、X/Twitter、LinkedIn 等。Hacker News+3newsletter.visiongeek.io+3X (formerly Twitter)+3
SAM 2 论文/主页/仓库：arXiv:2408.00714；Meta Research 发布页；GitHub: facebookresearch/sam2。arXiv+2Meta AI+2

查看全文

http://www.dtcms.com/a/471744.html