当前位置: 首页 > news >正文

常见的对比学习的损失函数

在多模态任务中,为了让模型能更好地关联视觉信息与语言信息,需要衡量语言视觉特征的对齐程度,以下是一些常见的指标和损失函数:

常见损失函数:

对比损失(Contrastive Loss)

  • 原理:对比损失旨在最大化正样本对(匹配的语言 - 视觉对)之间的相似性,同时最小化负样本对(不匹配的语言 - 视觉对)之间的相似性。通常使用余弦相似度等方式来衡量特征之间的相似性。
  • 公式:
    在这里插入图片描述

三元组损失(Triplet Loss)

  • 原理:三元组由一个锚点(可以是语言或视觉样本)、一个正样本(与锚点匹配的另一种模态样本)和一个负样本(与锚点不匹配的另一种模态样本)组成。其目标是让锚点与正样本的距离小于锚点与负样本的距离,并且差距要大于一个预设的边界值(margin)。
  • 公式:
    在这里插入图片描述
    其中,a 是锚点,p 是正样本,n 是负样本,d(\cdot) 是距离函数(如欧氏距离),m 是边界值。
    在这里插入图片描述

InfoNCE损失(Noise - Contrastive Estimation Loss)

  • 原理:InfoNCE损失是对比学习中常用的损失函数,它通过在多个候选样本中区分出正样本,来最大化正样本对之间的互信息。在语言 - 视觉对齐中,它能有效引导模型从一组候选视觉特征中识别出与给定语言特征匹配的特征。
  • 公式:
    在这里插入图片描述
    其中,l\mathbf{l}l 是语言特征向量,v+\mathbf{v}^+v+ 是正样本视觉特征向量,vi\mathbf{v}_ivi 表示包括正样本和负样本在内的所有候选视觉特征向量,N 是候选样本总数,τ\tauτ 是温度超参数,用于调整相似度得分的分布。
http://www.dtcms.com/a/339821.html

相关文章:

  • LLM(大语言模型)的工作原理 图文讲解
  • 基于“R语言+遥感“水环境综合评价方法技术应用——水线提取、水深提取、水温提、水质提取、水环境遥感等
  • make stb style code: bin2c and reverse
  • 开发中使用——APP层级相关知识
  • bit-Agent正式接入GPT-5,九科信息智能体能力再升级!
  • 海滨浴场应急广播:守护碧海蓝天的安全防线
  • 皮带跑偏?智慧煤矿靠AI摄像机+检测算法实现实时预警
  • Docker学习--常用命令
  • vue3动态获取高度用在轮播图上
  • Diamond开发经验(1)
  • 代码随想录刷题Day37
  • C++的二叉搜索树(二叉排序树)
  • AC 应用控制技术
  • Vulkan笔记(十一)-渲染通道(RenderPass)详解
  • 厂区能源管理智能化改造物联网解决方案
  • 沈昕医编---因为上岸了医疗编,来说一下e类联考的强度
  • YggJS RLogin暗黑霓虹主题登录注册页面 版本:v0.1.1
  • js 怎么调用 deepseekAPI
  • 雷卯针对香橙派Orange Pi 5 Pro开发板防雷防静电方案
  • 从密度到聚类:DBSCAN算法的第一性原理解析
  • MyCAT2的主从配置
  • Ubuntu、CentOS、AlmaLinux 9.5的 rc.local实现 开机启动
  • 第2章 组件设计与架构
  • IEEE GRSM 2025:Vision Foundation Models in Remote Sensing
  • 基于 STM32 和 NB-IoT 的智慧家居多设备联动控制系统设计
  • Windows Server DNS优化,网络响应速度提升方案
  • 让AI学会“边做边想“:ReAct的实战指南
  • 前端 React 实现数据懒加载-滚动触底加载数据
  • Redis Reactor 模型详解【基本架构、事件循环机制、结合源码详细追踪读写请求从客户端连接到命令执行的完整流程】
  • 移动端网页调试实战,内存泄漏问题的发现与优化