当前位置：首页 > news >正文

数据预处理的几种形式（转载）

news 2025/8/26 7:38:18

原文转载于百度：https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_4888087114982588782&sourceFrom=search_a
此博客仅用于记录学习与非盈利活动，若有侵权请联系博主删除。
在这里插入图片描述
1️⃣ 均值化（MC）
均值化是一种常用的量纲处理方法，适用于综合评价，特别是在进行灰色关联法研究时。计算公式为：X / Mean，即将每个数据除以平均值，使得所有数据都以平均值为单位。需要注意的是，这种方法要求所有数据都大于0，否则可能不适合使用。

2️⃣ 初值化（Init）
初值化也常用于综合评价，尤其是在灰色关联法研究中。计算公式为：X / 第一个非空数据，即以数据中的第一个非空数据作为参照标准，其余数据都除以该值。这种方法可以消除数据的量纲影响，便于比较。
在这里插入图片描述 3️⃣ 最小值化（MinS）
最小值化的目的是让最小值作为参照标准，所有数据都除以最小值。计算公式为：X / Min，即将每个数据除以最小值。这种方法同样要求所有数据都大于0，否则可能不适合使用。

4️⃣ 最大值化（MaxS）
最大值化的目的是让最大值作为参照标准，所有数据都除以最大值。计算公式为：X / Max，即将每个数据除以最大值。同样，这种方法要求所有数据都大于0。
在这里插入图片描述 5️⃣ 求和归一化
求和归一化的目的是让“求和值”作为参照标准，所有数据都除以求和值。计算公式为：X / Sum(X)，即将每个数据除以其所在列的所有数据的和。这种方法在TOPSIS法中较为常用。

6️⃣ 平方和归一化（S）
平方和归一化的目的是让“平方和值”作为参照标准，所有数据都除以平方和值。计算公式为：X / sqrt(Sum(X^2))，即将每个数据除以其所在列的所有数据的平方和的平方根。这种方法同样在TOPSIS法中较为常用。
在这里插入图片描述 7️⃣ 标准化（S）
标准化是一种常见的量纲化处理方式，计算公式为：(X - Mean) / Std，即每个数据减去平均值后再除以标准差。这种方法会让数据的平均值为0，标准差为1，适用于聚类分析、因子分析等算法。

8️⃣ 中心化（C）
中心化在社会科学类研究中较为常用，计算公式为：X - Mean，即每个数据减去平均值。这种方法会让数据的平均值为0，适用于中介作用、调节作用研究等。
在这里插入图片描述 9️⃣ 归一化（MMS）
归一化的目的是让数据压缩在[0,1]范围内，包括两个边界数字0和1。计算公式为：(X - Min) / (Max - Min)，当某数据刚好为最小值时，归一化后为0；如果数据刚好为最大值时,则归一化后为1。归一化也是一种常见的量纲处理方式。

🔟 正向化（MMS）
正向化的目的是使正向指标保持正向且量纲化。例如，GDP增长率、科研产出数量是数字越大越好的指标，而失业率是数字越小越好的指标。正向化的计算公式为：(X - Min) / (Max - Min)，当某数据为最小值时,归一化后为0;如果数据为最大值时,则归一化后为1。
在这里插入图片描述 1️⃣1️⃣ 逆向化（NMMS）
逆向化的目的是使逆向指标正向且量纲化，如失业率这一指标。逆向化的计算公式为：(Max - X) / (Max - Min)，当某数据为最小值时,归一化后为1;如果数据为最大值时,则归一化后为0。