当前位置: 首页 > news >正文

数据预处理的几种形式(转载)

原文转载于百度:https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_4888087114982588782&sourceFrom=search_a
此博客仅用于记录学习与非盈利活动,若有侵权请联系博主删除。
在这里插入图片描述
在这里插入图片描述1️⃣ 均值化(MC)
均值化是一种常用的量纲处理方法,适用于综合评价,特别是在进行灰色关联法研究时。计算公式为:X / Mean,即将每个数据除以平均值,使得所有数据都以平均值为单位。需要注意的是,这种方法要求所有数据都大于0,否则可能不适合使用。

2️⃣ 初值化(Init)
初值化也常用于综合评价,尤其是在灰色关联法研究中。计算公式为:X / 第一个非空数据,即以数据中的第一个非空数据作为参照标准,其余数据都除以该值。这种方法可以消除数据的量纲影响,便于比较。
在这里插入图片描述3️⃣ 最小值化(MinS)
最小值化的目的是让最小值作为参照标准,所有数据都除以最小值。计算公式为:X / Min,即将每个数据除以最小值。这种方法同样要求所有数据都大于0,否则可能不适合使用。

4️⃣ 最大值化(MaxS)
最大值化的目的是让最大值作为参照标准,所有数据都除以最大值。计算公式为:X / Max,即将每个数据除以最大值。同样,这种方法要求所有数据都大于0。
在这里插入图片描述5️⃣ 求和归一化
求和归一化的目的是让“求和值”作为参照标准,所有数据都除以求和值。计算公式为:X / Sum(X),即将每个数据除以其所在列的所有数据的和。这种方法在TOPSIS法中较为常用。

6️⃣ 平方和归一化(S)
平方和归一化的目的是让“平方和值”作为参照标准,所有数据都除以平方和值。计算公式为:X / sqrt(Sum(X^2)),即将每个数据除以其所在列的所有数据的平方和的平方根。这种方法同样在TOPSIS法中较为常用。
在这里插入图片描述7️⃣ 标准化(S)
标准化是一种常见的量纲化处理方式,计算公式为:(X - Mean) / Std,即每个数据减去平均值后再除以标准差。这种方法会让数据的平均值为0,标准差为1,适用于聚类分析、因子分析等算法。

8️⃣ 中心化(C)
中心化在社会科学类研究中较为常用,计算公式为:X - Mean,即每个数据减去平均值。这种方法会让数据的平均值为0,适用于中介作用、调节作用研究等。
在这里插入图片描述9️⃣ 归一化(MMS)
归一化的目的是让数据压缩在[0,1]范围内,包括两个边界数字0和1。计算公式为:(X - Min) / (Max - Min),当某数据刚好为最小值时,归一化后为0;如果数据刚好为最大值时,则归一化后为1。归一化也是一种常见的量纲处理方式。

🔟 正向化(MMS)
正向化的目的是使正向指标保持正向且量纲化。例如,GDP增长率、科研产出数量是数字越大越好的指标,而失业率是数字越小越好的指标。正向化的计算公式为:(X - Min) / (Max - Min),当某数据为最小值时,归一化后为0;如果数据为最大值时,则归一化后为1。
在这里插入图片描述1️⃣1️⃣ 逆向化(NMMS)
逆向化的目的是使逆向指标正向且量纲化,如失业率这一指标。逆向化的计算公式为:(Max - X) / (Max - Min),当某数据为最小值时,归一化后为1;如果数据为最大值时,则归一化后为0。

1️⃣2️⃣ 区间化(Interval)
区间化的目的是让数据压缩在[a,b]范围内,a和b是自己希望的区间值。如果a=0,b=1,那么其实就是一种特殊情况即归一化;其计算公式为:a + (b - a) * (X - Min) / (Max - Min)。
在这里插入图片描述

相关文章:

  • 如何借助Hyper - V在Windows 10中构建安全软件测试环境
  • 高速PCB设计中圆弧布线是否必要
  • 还原Windows防火墙
  • Android studio初体验
  • 6个月Python学习计划 Day 14 - 异常处理基础( 补充学习)
  • 在 Android Studio 中使用 GitLab 添加图片到 README.md
  • Vue 3 弹出式计算器组件(源码 + 教程)
  • DrissionPage调试工具:网页自动化与数据采集的革新利器
  • Linux中shell编程
  • mac 设置cursor (像PyCharm一样展示效果)
  • rk3588 上运行smolvlm-realtime-webcam,将视频转为文字描述
  • video-audio-extractor:视频转换为音频
  • 物联网协议之MQTT(一)基础概念和设备
  • Java中Git基础操作详解(clone、commit、push、branch)
  • 职坐标IT教育物联网全栈开发实战:传感器到云平台全链路
  • 关于如何运用AI的思考
  • 微服务商城-用户微服务
  • 力扣热题100之二叉树的直径
  • 文案伪原创用什么好?4款伪原创工具打造高质量文案
  • 我们来学zookeeper -- 集群搭建
  • 上海网站建设公司案例/大数据网络营销
  • 网站支付链接怎么做的/网络营销实施方案
  • 公司商标设计网站/免费个人推广引流平台
  • 网站建设小组五类成员/中美关系最新消息
  • 长沙建站模板大全/线上推广是什么意思
  • 学网站建设 去哪里/广州十大营销策划公司