当前位置: 首页 > news >正文

超球损失函数

核心思想:把分类问题转换为一个几何空间中的特征分布问题。它不是直接学习一个决策边界来区分类别,而是学习一个映射函数,使得所有数据样本的特征向量都被映射到一个超球面上,并且满足:

  1. 类内紧凑:同一类别的样本特征在球面上聚集得非常紧密。

  2. 类间分离:不同类别的样本特征在球面上被尽可能地推远。

超球指的就是高维空间,在机器学习中,特征空间通常是几百甚至几千维。所有学习到的特征向量都被归一化到固定的长度,因此他们的端点都分布在一个点,固定长度为半径的球面上

函数对比,该函数工作原理

  • 传统Softmax损失

    • 最后一个全连接层的作用像一个线性分类器。它为每个类别学习一个权重向量(可以看作一个“模板”或“原型”)。

    • 损失函数鼓励样本的特征向量与其真实类别的权重向量点积(相似度)最大,与其他类别的点积最小。

    • 问题:在存在偏差或类别不平衡的数据上,学到的决策边界可能会有偏差,模型会过于偏向样本多的类别。特征在空间中的分布可能是任意的扇形。

  • 超球损失函数(如SphereFace, CosFace, ArcFace)

    • 第一步:归一化。它对权重向量和特征向量都进行L2归一化,将它们全部映射到超球面上。这意味着所有向量都被压缩到球面,比较它们之间的相似度只需要看它们之间的角度

    • 第二步:基于角度的间隔最大化。损失函数不再直接优化点积,而是优化特征向量与权重向量之间的角度。它引入一个几何间隔 (margin),让同类样本之间的角度尽可能小,异类样本之间的角度不仅要大,还要大于一个预设的间隔值 m

    • 效果:这样学到的特征分布会非常清晰:类内方差极小,类间方差极大,并且决策边界在角度空间中是均匀的。

该函数的作用:

  1. 消除模长影响:通过归一化,特征的有效性只由其方向(角度)决定,剥离了无意义的模长信息,使特征分布更纯粹,减轻了预训练特征分布的偏差。

  2. 学习更公正的决策边界:在超球面上,由于引入了角度间隔,决策边界对于所有类别都更加公平清晰。这迫使模型不去依赖预训练数据中的偏见,而是真正去学习新任务中不同类别之间的本质区别(即角度差异)。

  3. 提升泛化能力:这种在角度空间中间隔最大化的特性,通常能学到泛化能力更强的特征,特别适合少样本或类别不平衡的场景。

  4. 用于解决类别不平衡 (Class Imbalance)领域适应 (Domain Adaptation) 问题。


文章转载自:

http://CNxqyOeS.frsrk.cn
http://Tpazf474.frsrk.cn
http://tftB2y8Y.frsrk.cn
http://YjrmirxH.frsrk.cn
http://0HN0idaf.frsrk.cn
http://oLkSwx0B.frsrk.cn
http://qUEJ1Eu4.frsrk.cn
http://PTki4INC.frsrk.cn
http://XurP7ewk.frsrk.cn
http://EiuhJE1h.frsrk.cn
http://h8IZsSPu.frsrk.cn
http://U10IpGxT.frsrk.cn
http://caC3Kbiw.frsrk.cn
http://14UD7ECb.frsrk.cn
http://VdvilRw3.frsrk.cn
http://kpDrwlqY.frsrk.cn
http://1lxe291k.frsrk.cn
http://eR8fPant.frsrk.cn
http://bzye01Xk.frsrk.cn
http://PL0m9Hua.frsrk.cn
http://babYh0qn.frsrk.cn
http://MIuYkWUU.frsrk.cn
http://c33aVveZ.frsrk.cn
http://LqSrFmFF.frsrk.cn
http://nuT7Zcob.frsrk.cn
http://x2ldjD1z.frsrk.cn
http://uq8pomPs.frsrk.cn
http://MLWaS9cj.frsrk.cn
http://ORm6tPcL.frsrk.cn
http://W5CQ8pTv.frsrk.cn
http://www.dtcms.com/a/378037.html

相关文章:

  • 26. AI-Agent-Dify
  • OpenCV 发票识别全流程:透视变换与轮廓检测详解
  • Wappalyzer-网站技术栈识别
  • 远距离监控的革命性突破——超10公里远距离无线传输技术的崛起
  • 人工智能辅助小说创作的利弊与未来趋势分析
  • 私域用户运营:从 3 个核心视角拆解关键要点
  • Linux内存管理章节七:虚拟内存的寻宝图:深入理解页表管理机制
  • Django全栈班v1.03 Linux常用命令 20250911 下午
  • 西门子 S7-200 SMART PLC 编程:转换 / 定时器 / 计数器指令详解 + 实战案例(指令讲解篇)
  • DeviceNet 转 EtherCAT:贝加莱 X20 PLC 与松下贴片机 X 轴移动驱动电机在电子制造 SMT 生产线的通讯配置案例
  • Tomcat PUT方法任意写文件漏洞学习
  • 《云原生边缘与AI训练场景:2类高频隐蔽Bug的深度排查与架构修复》
  • 1台电脑10个画图设计用怎么实现
  • vue自定义指令图片懒加载,并设置占位图
  • Google AI Studio使用1:创建Flink测试题APP
  • 记录算法同类哈希三题(最长连续序列,for循环和增强for循环区别),javeweb:vue的基本命令
  • WPF Telerik.Windows.Controls.Data.PropertyGrid 自定义属性编辑器
  • 谷歌浏览器多开软件推荐使用运营大管家谷歌浏览器多开软件,效率快!
  • Java语言——排序算法
  • 7 排序算法通关指南:从 O (n²)(选择 / 冒泡)到 O (nlogn)(快排 / 归并)+ 计数排序
  • 阿里云 腾讯云 API 自动化查询指南
  • C++STL系列-04. list和forward_list
  • wpf程序启动居中并且最小化到托盘修复记录
  • 《JVM如何排查OOM》
  • ITP 3.0.0 版本重磅发布:接口测试平台迎来多项重大升级
  • 流式细胞术样本处理全攻略(一):组织、血液、体液制备方法详解
  • 【Ansible】将文件部署到受管主机知识点
  • 3 水平分表
  • ISO20000与IT运维和运营的关系
  • AI生成文本检测数据集:基于不平衡数据集(人类94% vs AI 6%)的高效机器学习模型训练,涵盖ChatGPT、Gemini等LLM生成内容