当前位置: 首页 > news >正文

SigLIP和SigLIP2

SigLIP

方法动机

  目前,利用大规模图文对进行对比学习(contrastive learning)是训练视觉模型的重要方式,典型代表是 CLIP 和 ALIGN。这些方法通过图文对齐来学习统一的图文表示空间,但它们通常使用基于 softmax 的对比损失(InfoNCE 损失),这需要对所有图文对的相似度进行归一化计算,计算和显存开销都比较大。SigLIP提出了一个更简单的新方法:Sigmoid 损失(Sigmoid Loss),用于语言-图像预训练,称为 Sigmoid Language-Image Pre-training。
  论文

核心创新

传统 softmax 对比损失
  ● 需要对整个 batch 中的图文对相似度进行 softmax 归一化。
  ● 对每个图像要在所有文本中选出最匹配的,对每个文本也一样,操作比较复杂。
  ● 对 batch size 敏感,通常需要很大的 batch size 才能取得好效果。
Sigmoid 损失
  ● 不需要对整个 batch 做归一化,每对图文独立计算。
  ● 可以理解为一个二分类问题:匹配的图文对为正样本(label=1),不匹配的为负样本(label=-1)。
  ● 简化了分布式实现,更节省显存,可以支持超大 batch(甚至 1 百万)。
  ● 在小 batch size 下效果优于 softmax,大 batch size 下性能相近。
Sigmoid 损失是对每一对图文分别使用 sigmoid 激活函数进行二分类判断
在这里插入图片描述

模型架构

  S

http://www.dtcms.com/a/289761.html

相关文章:

  • 题单【循环结构】
  • maven构建Could not transfer artifact失败原因
  • 系统思考:整体论
  • 【成品设计】基于STM32的家庭用水检测系统设计
  • 2025《艾诺提亚失落之歌》新手攻略
  • 看板中如何处理跨职能任务协作?
  • 大模型词表设计与作用解析
  • Autosar RTE实现观测量生成-基于ETAS软件
  • [Python] -项目实践2- 用Python快速抓取网页内容(爬虫入门)
  • python网络爬虫小项目(爬取评论)超级简单
  • 阶段1--Linux中的计划任务
  • 调试Claude code的正确姿势
  • 类型混淆、越界写入漏洞
  • 基于单片机出租车计价器设计
  • 重塑优化建模与算法设计:2024上半年大模型(LLM)在优化领域的应用盘点
  • Java入门-【3】变量、字符串、条件、循环、数组的简单总结
  • python 字典中取值
  • SQL189 牛客直播各科目同时在线人数
  • MySQL事物相关
  • Logback简单使用
  • 什么是SEO关键词优化的实战提升指南?
  • 如何系统化掌握角色设计与提示工程的深度整合
  • 基于Event Sourcing和CQRS的微服务架构设计与实战
  • 第十四届全国大学生数学竞赛初赛试题(非数学专业类)
  • 零基础入门 AI 运维:Linux 部署全栈项目实战(MySQL+Nginx + 私有化大模型)
  • 论文解读:Rethinking vision transformer through human–object interaction detection
  • 西门子 S7-1500 系列 PLC CPU 选型全指南:从类型到实战
  • 搭建大模型
  • 新人加入团队后如何快速理解看板?
  • 地图经纬度与地图切片像素坐标换算类