数据预处理的几种形式(转载)
原文转载于百度:https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_4888087114982588782&sourceFrom=search_a
此博客仅用于记录学习与非盈利活动,若有侵权请联系博主删除。
1️⃣ 均值化(MC)
均值化是一种常用的量纲处理方法,适用于综合评价,特别是在进行灰色关联法研究时。计算公式为:X / Mean,即将每个数据除以平均值,使得所有数据都以平均值为单位。需要注意的是,这种方法要求所有数据都大于0,否则可能不适合使用。
2️⃣ 初值化(Init)
初值化也常用于综合评价,尤其是在灰色关联法研究中。计算公式为:X / 第一个非空数据,即以数据中的第一个非空数据作为参照标准,其余数据都除以该值。这种方法可以消除数据的量纲影响,便于比较。
3️⃣ 最小值化(MinS)
最小值化的目的是让最小值作为参照标准,所有数据都除以最小值。计算公式为:X / Min,即将每个数据除以最小值。这种方法同样要求所有数据都大于0,否则可能不适合使用。
4️⃣ 最大值化(MaxS)
最大值化的目的是让最大值作为参照标准,所有数据都除以最大值。计算公式为:X / Max,即将每个数据除以最大值。同样,这种方法要求所有数据都大于0。
5️⃣ 求和归一化
求和归一化的目的是让“求和值”作为参照标准,所有数据都除以求和值。计算公式为:X / Sum(X),即将每个数据除以其所在列的所有数据的和。这种方法在TOPSIS法中较为常用。
6️⃣ 平方和归一化(S)
平方和归一化的目的是让“平方和值”作为参照标准,所有数据都除以平方和值。计算公式为:X / sqrt(Sum(X^2)),即将每个数据除以其所在列的所有数据的平方和的平方根。这种方法同样在TOPSIS法中较为常用。
7️⃣ 标准化(S)
标准化是一种常见的量纲化处理方式,计算公式为:(X - Mean) / Std,即每个数据减去平均值后再除以标准差。这种方法会让数据的平均值为0,标准差为1,适用于聚类分析、因子分析等算法。
8️⃣ 中心化(C)
中心化在社会科学类研究中较为常用,计算公式为:X - Mean,即每个数据减去平均值。这种方法会让数据的平均值为0,适用于中介作用、调节作用研究等。
9️⃣ 归一化(MMS)
归一化的目的是让数据压缩在[0,1]范围内,包括两个边界数字0和1。计算公式为:(X - Min) / (Max - Min),当某数据刚好为最小值时,归一化后为0;如果数据刚好为最大值时,则归一化后为1。归一化也是一种常见的量纲处理方式。
🔟 正向化(MMS)
正向化的目的是使正向指标保持正向且量纲化。例如,GDP增长率、科研产出数量是数字越大越好的指标,而失业率是数字越小越好的指标。正向化的计算公式为:(X - Min) / (Max - Min),当某数据为最小值时,归一化后为0;如果数据为最大值时,则归一化后为1。
1️⃣1️⃣ 逆向化(NMMS)
逆向化的目的是使逆向指标正向且量纲化,如失业率这一指标。逆向化的计算公式为:(Max - X) / (Max - Min),当某数据为最小值时,归一化后为1;如果数据为最大值时,则归一化后为0。
1️⃣2️⃣ 区间化(Interval)
区间化的目的是让数据压缩在[a,b]范围内,a和b是自己希望的区间值。如果a=0,b=1,那么其实就是一种特殊情况即归一化;其计算公式为:a + (b - a) * (X - Min) / (Max - Min)。