当前位置: 首页 > news >正文

SAM12

SAM1

NLP中可以通过预测next token作为预训练任务,而在下游任务中可以使用prompt engineering做应用。因此,作者扩展了下NLP里prompt在图像分割里的用法, prompt可以是以下几种类型:

  • point
  • box
  • mask
  • 任意格式的文本

image encoder: ViT

point和box可以作为一类使用position encodings, text可以使用CLIP作为encoder, 而mask是一种密集型的prompt,可以使用卷积作为encoder

mask decoder使用一个transformer将image embedding和prompt embedding做双向的cross-attention;并且也有prompt embedding的self-attention。也有MLP和linear classifier分类分割区域

解决混淆的输入:对于一个prompt,模型会输出3个mask,实际上也可以输出更多的分割结果,3个可以看作一个物体的整体、部分、子部分,基本能满足大多数情况。使用IOU的方式,排序mask。在反向传播时,参与计算的只有loss最小的mask相关的参数

SAM2

http://www.dtcms.com/a/152817.html

相关文章:

  • 协作开发攻略:Git全面使用指南 — 第二部分 高级技巧与最佳实践
  • DPIN在AI+DePIN孟买峰会阐述全球GPU生态系统的战略愿景
  • 亚马逊英国站FBA费用重构:轻小商品迎红利期,跨境卖家如何抢占先机?
  • A2A Agent 框架结构化分析报告
  • 基于 EFISH-SBC-RK3588 的无人机多光谱/红外热成像边缘计算方案
  • 数据集中常见的11种变量类型及其在数据分析中的重要性
  • 前端微服务详解
  • 第十二章 Python语言-大数据分析PySpark(终)
  • UE5 调整字体、界面大小
  • 【AI News | 20250424】每日AI进展
  • centos7里memcached 的安装使用
  • Verilog 语法 (一)
  • 第七章:Contribution Governance
  • 【Pandas】pandas DataFrame dot
  • 【C++QT】Buttons 按钮控件详解
  • 乐聚机器人与地瓜机器人达成战略合作,联合发布Aelos Embodied具身智能
  • flask学习(1)
  • MongoDB Compass可视化工具
  • 常见接口测试常见面试题(JMeter)
  • 在 Ubuntu 环境为 Elasticsearch 引入 `icu_tokenizer
  • 深入理解表单---提交用户与网页交互的重要方式:GET 与 POST 的本质区别与应用实践
  • vue3:十一、主页面布局(修改顶部导航栏样式-右侧:用户信息+退出登录+全屏显示)
  • 突破厚铜PCB阻抗控制难题:多级阻抗实现方法
  • 工厂模式:解耦对象创建与使用的设计模式
  • vue项目,基于echarts的各省份地图展示
  • 解决:springmvc工程 响应时,将实体类对象 转换成json格式数据
  • Windows申请苹果开发者测试证书Uniapp使用
  • 二分小专题
  • [特殊字符] 分布式定时任务调度实战:XXL-JOB工作原理与路由策略详解
  • WGAN+U-Net架构实现图像修复