当前位置: 首页 > news >正文

【深度学习】多源物料融合算法(一):量纲对齐常见方法

目录

一、引言

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

2.2 Min-Max 归一化

2.3 Rank Transformation

2.4  Log Transformation

2.5 Robust Scaling 

3、总结


一、引言

类似抖音、快手、小红书等产品的信息流推荐业务,主要通过信息流广告、信息流直播电商等获得经济收益,对于流量最大的核心推荐系统,或多或少都要承担商业指标,承接特定物料的曝光需求。但是广告、直播电商或其他业务物料,会根据自己的需求进行排序,由于不是一套模型,业务场景数据也不一样,插入物料的量纲与主推荐量纲必定不相同,随之但是的就是无法比较问题,如何将不同的量纲对齐且可比呢,今天介绍常见的几种方法。

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

Z-score标准化将数据转换为均值为0、标准差为1的分布。公式如下:

z=\frac{x-\mu }{\sigma }

其中:

  • x是原始数据点
  •  \mu是序列的均值
  • \sigma是序列的标准差

Sigmoid将均值为0、标准差为1的分布转化为值域为0-1的分布。公式为 

f(x)=\frac{1}{1+e^{-x}}

Z-score+Sigmoid序列合并计算步骤

  1.  对每个序列分别计算均值和标准差。
  2. 对每个数据点应用Z-score公式进行标准化。
  3. 对标准化后的序列采用Simgoid归一化到0-1后,进行比较。 

2.2 Min-Max 归一化

Min-Max 归一化将数据线性地转换到一个固定的区间(通常是 [0, 1])。公式如下:

x'=\frac{x-min}{max-min}

其中:

  • x 是原始数据点
  • min是序列的最小值
  • max是序列的最大值

序列合并计算步骤:

  1.  对每个序列分别计算最小值和最大值。
  2. 对每个数据点应用上述公式进行归一化。
  3. 合并归一化后的序列。  

2.3 Rank Transformation

Rank Transformation 将数据转换为它们的秩次。公式如下:

x'=rank(x)

序列合并计算步骤:

  1.  对每个序列分别计算每个数据点的秩次。
  2. 合并秩次后的序列。 

2.4  Log Transformation

如果数据分布偏斜,可以使用对数变换来压缩数据范围。公式如下:

x'=log(x+1)

 序列合并计算步骤:

  1.  对每个序列分别应用对数变换。
  2. 合并变换后的序列。 

2.5 Robust Scaling 

 Robust Scaling 使用中位数和四分位距(IQR)进行标准化,适用于存在异常值的数据。公式如下:

x'=\frac{x-mediam}{IQR} 

  • mediam是序列的中位数
  • IQR是序列的四分位距(即第75百分位数减去第25百分位数) 

 序列合并计算步骤:

  1.    对每个序列分别计算中位数和IQR。
  2.  对每个数据点应用上述公式进行标准化。
  3.  合并标准化后的序列。 ​​​​​​​

3、总结

本文初步介绍了多种将不同量纲的多源物料转换为同一量纲的方法,主要目标就是让不同业务场景的推荐排序结果可以比较,通过公式化的序列转换,快速达到可比的预期,计算效率更高。在实践中,Z-score+Sigmoid方法更为实用。

相关文章:

  • 贪心算法(5)(java)k次取反后最大化的数组和
  • git 撤销某次提交的上交到远程服务器的commit提交,此提交后面的commit需要保留【deeepseek生成】
  • 【SOC 芯片设计 DFT 学习专栏 -- Scan chain 和 SDFFs及 EDT】
  • sqli-lab靶场学习(八)——Less26-28
  • Android ANR 监控方法与事件分发耗时优化实战
  • vue的 props 与 $emit 以及 provide 与 inject 的 组件之间的传值对比
  • docker修改了daemon.js文件还是下载不了镜像
  • Android 自定义View之底部导航栏
  • LanceDB快速入门之基本操作与API一览
  • 基于VMware的Ubuntu22.04系统安装和配置以及解决Ubuntu共享文件夹无法实现的问题
  • 优化程序执行时间的核心方法与实战策略
  • 机器学习(吴恩达)
  • MinIO的预签名直传机制
  • UI自动化:seldom框架和Selenium
  • MySQL 优化方案
  • [笔记.AI]KAG(知识增强生成 Knowledge Augmented Generation)
  • 解析Doris编译脚本generated-source.sh的逻辑
  • python-53-分别使用flask和streamlit进行向量存储和检索的服务开发实战
  • 算法分享———进制转换通用算法
  • centos8.0系统部署zabbix6.0监控
  • 2025年上海市模范集体、劳动模范和先进工作者名单揭晓
  • 追光|铁皮房、土操场,这有一座“筑梦”摔跤馆
  • 2025上海科技节将于5月17日开幕,拟设6大板块专题活动
  • 2025江西跨境电子商务发展交流会召开,探索行业发展新趋势
  • 李彦宏:技术迭代速度之快从业30年来未见过,要提升执行力战胜对手
  • 上海一中院一审公开开庭审理被告人胡欣受贿案