灰色关联分析笔记
灰色关联分析
模型引出
什么是灰色系统?
- 灰色系统理论是1982年由邓聚龙创立的一门边缘性学科(interdisciplinary)。
灰色系统用颜色深浅反映信息量的多少。说一个系统是黑色的,就是说这个系统是黑洞洞的,信息量太少;说一个系统是白色的,就是说这个系统是清楚的,信息量充足。而处于黑白之间的系统,或说信息不完全的系统,称为灰色系统或简称灰系统。
“信息不完全”的基本含义(灰的核心)
一般指:
- 系统因素不完全明确
- 因素关系不完全清楚
- 系统的结构不完全知道
- 系统的作用原理不完全明了
白、黑、灰系统对比表
维度 | 白色系统 | 黑色系统 | 灰色系统 |
---|---|---|---|
从表象看 | 明朗 | 暗 | 若明若暗 |
从过程看 | 新 | 旧 | 新旧交替 |
从性质看 | 纯 | 不纯 | 多种成分 |
从信息看 | 完全 | 不完全 | 部分完全 |
从结果看 | 唯一的解 | 无数的解 | 非唯一性 |
从态度看 | 肯定 | 否定 | 扬弃 |
从方法看 | 严厉 | 放纵 | 宽容 |
什么是关联分析?
- 所谓关联分析,就是系统地分析因素。回答的问题是:某个包含多种因素的系统中,哪些因素是主要的,哪些是次要的;哪些因素影响大,哪些因素影响小;哪些因素是明显的,哪些因素是潜在的;哪些是需要发展的,那些需要抑制……
- 现有因素分析的量化方法,大都是数理统计法(如回归分析、方差分析、主要成分分析等),这些方法都有下述弱点:
(1)要求大量数据,数据量少难以找到统计规律
(2)要求分布是典型的(线性的、指数的或对数的),即使是典型的并非都能处理
(3)计算工作量大,一般需要计算机帮助
(4)有时可能出现反常情况,如正相关则断为负相关,以至正确现象受到歪曲和颠倒 - 尤其是我国统计数据十分有限,而且现有数据灰度较大,许多数据都出现几次大起大落,没有典型的分布规律。因此,采用数理统计方法往往难以奏效。
灰色关联分析
-
灰色关联度分析(Grey Relation Analysis,GRA),是一种多因素统计分析的方法。灰色关联分析方法弥补了采用数理统计方法作系统分析所导致的缺憾。它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。
-
灰色关联分析的基本思想是:根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近,相应序列之间的关联度就越大,反之就越小。
-
对一个抽象的系统或现象进行分析,首先要选准反映系统行为特征的数据序列(称为“系统行为的映射量”),用映射量来间接地表征系统行为。例如,用国民平均接受教育的年数来反映教育发达程度,用刑事案件的发案率来反映社会治安面貌和社会秩序,用医院挂号次数来反映国民的健康水平等。有了系统行为特征数据和相关因素的数据,即可作出各个序列的图形,从直观上进行分析。
关联程度的逻辑关系
曲线几何形态越相似 → 发展变化态势就越接近 → 其关联程度就越大
关联分析步骤
-
1、母序列(又称参考序列、母指标)
能反映系统行为特征的数据序列,类似于因变量YYY,记为Y=[y1,y2,⋯ ,yn]TY = [y_1, y_2, \cdots, y_n]^TY=[y1,y2,⋯,yn]T -
2、子序列(又称比较序列、子指标)
影响系统行为的因素组成的数据序列,类似于自变量XXX,记为
Xnm=[x11x12⋯x1mx21x22⋯x2m⋮⋮⋱⋮xn1xn2⋯xnm]X_{nm} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1m} \\ x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nm} \end{bmatrix}Xnm=x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1mx2m⋮xnm -
3、数据预处理
由于不同要素具有不同量纲和数据范围,因此我们要对他们进行预处理去量纲,将他们统一到近似的范围内,先求出每个指标的均值,在用指标中的元素除以其均值
y~k=yky‾i,y‾i=1n∑k=1nyk\widetilde{y}_k = \frac{y_k}{\overline{y}_i}, \overline{y}_i = \frac{1}{n}\sum_{k=1}^{n} y_kyk=yiyk,yi=n1k=1∑nyk
x~ki=xkix‾i,x‾i=1n∑k=1nxki(i=1,2,⋯ ,m)\widetilde{x}_{ki} = \frac{x_{ki}}{\overline{x}_i}, \overline{x}_i = \frac{1}{n}\sum_{k=1}^{n} x_{ki} (i = 1, 2, \cdots, m)xki=xixki,xi=n1k=1∑nxki(i=1,2,⋯,m) -
4、计算灰色关联系数
计算子序列中各个指标与母序列的关联系数
记为:a=minimink∣x0(k)−xi(k)∣a = \min\limits_{i}\min\limits_{k} \vert x_0(k) - x_i(k) \verta=iminkmin∣x0(k)−xi(k)∣,b=maximaxk∣x0(k)−xi(k)∣b = \max\limits_{i}\max\limits_{k} \vert x_0(k) - x_i(k) \vertb=imaxkmax∣x0(k)−xi(k)∣
为两极最小差和最大差
构造:ξi(k)=y(x0(k),xi(k))=a+ρb∣x0(k)−xi(k)∣+ρb\xi_i(k) = y(x_0(k), x_i(k)) = \frac{a + \rho b}{\vert x_0(k) - x_i(k) \vert + \rho b}ξi(k)=y(x0(k),xi(k))=∣x0(k)−xi(k)∣+ρba+ρb,其中ρ\rhoρ为分辨系数,一般取0.50.50.5 -
5、计算关联度
ri=1n∑k=1nξi(k)=1n∑k=1ny(x0(k),xi(k))r_i = \frac{1}{n}\sum_{k = 1}^{n} \xi_i(k) = \frac{1}{n}\sum_{k = 1}^{n} y(x_0(k), x_i(k))ri=n1∑k=1nξi(k)=n1∑k=1ny(x0(k),xi(k))
关联分析例题
1、已知某地国民生产总值,工业和农业生产总值,原始数据的形式及来源见下表,分析工业农业哪个对国民生产总值影响大
项目名称 | 年份 | |||
---|---|---|---|---|
2016 | 2017 | 2018 | 2019 | |
国民生产总值 | 55 | 65 | 75 | 100 |
工业产值 | 24 | 38 | 40 | 50 |
农业产值 | 10 | 22 | 18 | 20 |
1)定义母序列及子序列如下
项目名称 | 年份 | 项目代号 | |||
---|---|---|---|---|---|
2016 | 2017 | 2018 | 2019 | ||
国民生产总值 | 55 | 65 | 75 | 100 | X0X_0X0(母序列) |
工业产值 | 24 | 38 | 40 | 50 | X1X_1X1(子序列) |
农业产值 | 10 | 22 | 18 | 20 | X2X_2X2(子序列) |
2)数据预处理
对数据进行均值化,公式为:
y~k=yky‾i,y‾i=1n∑k=1nyk\widetilde{y}_k = \frac{y_k}{\overline{y}_i}, \overline{y}_i = \frac{1}{n}\sum_{k=1}^{n} y_kyk=yiyk,yi=n1k=1∑nyk
x~ki=xkix‾i,x‾i=1n∑k=1nxki(i=1,2,⋯ ,m)\widetilde{x}_{ki} = \frac{x_{ki}}{\overline{x}_i}, \overline{x}_i = \frac{1}{n}\sum_{k=1}^{n} x_{ki} (i = 1,2,\cdots,m)xki=xixki,xi=n1k=1∑nxki(i=1,2,⋯,m)
项目名称 | 年份 | 项目代号 | |||
---|---|---|---|---|---|
2016 | 2017 | 2018 | 2019 | ||
国民生产总值 | 0.75 | 0.88 | 1.02 | 1.36 | (母序列) |
工业产值 | 0.63 | 1.00 | 1.05 | 1.32 | (子序列) |
农业产值 | 0.57 | 1.26 | 1.03 | 1.14 | (子序列) |
3)求关联系数
相关公式:
a=minimink∣x0(k)−xi(k)∣a = \min\limits_{i}\min\limits_{k} \vert x_0(k) - x_i(k) \verta=iminkmin∣x0(k)−xi(k)∣
b=maximaxk∣x0(k)−xi(k)∣b = \max\limits_{i}\max\limits_{k} \vert x_0(k) - x_i(k) \vertb=imaxkmax∣x0(k)−xi(k)∣
ξi(k)=y(x0(k),xi(k))=a+ρb∣x0(k)−xi(k)∣+ρb\xi_i(k) = y(x_0(k), x_i(k)) = \frac{a + \rho b}{\vert x_0(k) - x_i(k) \vert + \rho b}ξi(k)=y(x0(k),xi(k))=∣x0(k)−xi(k)∣+ρba+ρb
kkk | X0X_0X0 | X1X_1X1 | X2X_2X2 | ∣x0(k)−x1(k)∣\vert x_0(k) - x_1(k) \vert∣x0(k)−x1(k)∣ | ∣x0(k)−x2(k)∣\vert x_0(k) - x_2(k) \vert∣x0(k)−x2(k)∣ |
---|---|---|---|---|---|
1 | 0.75 | 0.63 | 0.57 | 0.12 | 0.18 |
2 | 0.88 | 1 | 1.26 | 0.12 | 0.38 |
3 | 1.02 | 1.05 | 1.03 | 0.03 | 0.01 |
4 | 1.36 | 1.32 | 1.14 | 0.04 | 0.22 |
已知a=0.01a = 0.01a=0.01,b=0.38b = 0.38b=0.38,关联系数公式:
ξi(k)=y(x0(k),xi(k))=0.01+0.5×0.38∣x0(k)−xi(k)∣+0.5×0.38=0.2∣x0(k)−xi(k)∣+0.19
\xi_i(k) = y(x_0(k), x_i(k)) = \frac{0.01 + 0.5 \times 0.38}{\vert x_0(k) - x_i(k) \vert + 0.5 \times 0.38} = \frac{0.2}{\vert x_0(k) - x_i(k) \vert + 0.19}
ξi(k)=y(x0(k),xi(k))=∣x0(k)−xi(k)∣+0.5×0.380.01+0.5×0.38=∣x0(k)−xi(k)∣+0.190.2
kkk | ∣x0(k)−x1(k)∣\vert x_0(k) - x_1(k) \vert∣x0(k)−x1(k)∣ | ∣x0(k)−x2(k)∣\vert x_0(k) - x_2(k) \vert∣x0(k)−x2(k)∣ | ξ1\xi_1ξ1 | ξ2\xi_2ξ2 |
---|---|---|---|---|
1 | 0.12 | 0.18 | 0.645 | 0.541 |
2 | 0.12 | 0.38 | 0.645 | 0.351 |
3 | 0.03 | 0.01 | 0.909 | 1.000 |
4 | 0.04 | 0.22 | 0.870 | 0.488 |
4)求关联度
关联度公式:
ri=1n∑k=1nξi(k)=1n∑k=1ny(x0(k),xi(k))
r_i = \frac{1}{n}\sum_{k=1}^{n} \xi_i(k) = \frac{1}{n}\sum_{k=1}^{n} y(x_0(k), x_i(k))
ri=n1k=1∑nξi(k)=n1k=1∑ny(x0(k),xi(k))
kkk | ξ1\xi_1ξ1 | ξ2\xi_2ξ2 |
---|---|---|
1 | 0.645 | 0.541 |
2 | 0.645 | 0.351 |
3 | 0.909 | 1.000 |
4 | 0.870 | 0.488 |
( r ) | 0.767 | 0.595 |
因为 r1>r2r_1 > r_2r1>r2,所以工业产值关联度更大。
灰色关联综合评价——典型例题
我们来换个方法给明星Kun选对象,还是A、B、C三位候选人(Kun觉得身高165是最好,体重在90 - 100斤是最好)
候选人 | 颜值 | 脾气(争吵次数) | 身高 | 体重 |
---|---|---|---|---|
A | 9 | 10 | 175 | 120 |
B | 8 | 7 | 164 | 80 |
C | 6 | 3 | 157 | 90 |
1)数据正向化处理(可看TOPSIS一节)
将原始矩阵正向化,就是要将所有的指标类型统一转化为极大型指标。
原始矩阵形式:
Xnm=[x11x12⋯x1mx21x22⋯x2m⋮⋮⋱⋮xn1xn2⋯xnm]
X_{nm} = \begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1m} \\
x_{21} & x_{22} & \cdots & x_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{nm}
\end{bmatrix}
Xnm=x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1mx2m⋮xnm
正向化后数据:
候选人 | 颜值 | 脾气(争吵次数) | 身高 | 体重 |
---|---|---|---|---|
A | 9 | 0 | 0 | 0 |
B | 8 | 3 | 0.9 | 0.5 |
C | 6 | 7 | 0.2 | 1 |
2)正向化后数据预处理
每个指标的元素除以该指标元素的平均值,矩阵形式:
Znm=[z11z12⋯z1mz21z22⋯z2m⋮⋮⋱⋮zn1zn2⋯znm]
Z_{nm} = \begin{bmatrix}
z_{11} & z_{12} & \cdots & z_{1m} \\
z_{21} & z_{22} & \cdots & z_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
z_{n1} & z_{n2} & \cdots & z_{nm}
\end{bmatrix}
Znm=z11z21⋮zn1z12z22⋮zn2⋯⋯⋱⋯z1mz2m⋮znm
候选人 | 颜值 | 脾气(争吵次数) | 身高 | 体重 |
---|---|---|---|---|
A | 1.17 | 0.00 | 0.00 | 0.00 |
B | 1.04 | 0.90 | 2.45 | 1.00 |
C | 0.78 | 2.10 | 0.55 | 2.00 |
3)构造母序列(如果没有明确的母序列,就选各个指标的最大值)
母序列 Y=[y1,y2,⋯ ,yn]TY = [y_1, y_2, \cdots, y_n]^TY=[y1,y2,⋯,yn]T,其中 yi=max(zi1,zi2,⋯ ,zim)y_i = \max(z_{i1}, z_{i2}, \cdots, z_{im})yi=max(zi1,zi2,⋯,zim)
候选人 | YYY | 颜值 | 脾气(争吵次数) | 身高 | 体重 |
---|---|---|---|---|---|
A | 1.17 | 1.17 | 0.00 | 0.00 | 0.00 |
B | 2.45 | 1.04 | 0.90 | 2.45 | 1.00 |
C | 2.10 | 0.78 | 2.10 | 0.55 | 2.00 |
4)计算关联系数
记差值矩阵为( K ),矩阵形式:
Knm=[k11k12⋯k1mk21k22⋯k2m⋮⋮⋱⋮kn1kn2⋯knm]=[∣z11−y1∣∣z12−y1∣⋯∣z1m−y1∣∣z21−y2∣∣z22−y2∣⋯∣z2m−y2∣⋮⋮⋱⋮∣zn1−yn∣∣zn2−yn∣⋯∣znm−yn∣]
K_{nm} = \begin{bmatrix}
k_{11} & k_{12} & \cdots & k_{1m} \\
k_{21} & k_{22} & \cdots & k_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
k_{n1} & k_{n2} & \cdots & k_{nm}
\end{bmatrix} = \begin{bmatrix}
\vert z_{11} - y_1 \vert & \vert z_{12} - y_1 \vert & \cdots & \vert z_{1m} - y_1 \vert \\
\vert z_{21} - y_2 \vert & \vert z_{22} - y_2 \vert & \cdots & \vert z_{2m} - y_2 \vert \\
\vdots & \vdots & \ddots & \vdots \\
\vert z_{n1} - y_n \vert & \vert z_{n2} - y_n \vert & \cdots & \vert z_{nm} - y_n \vert
\end{bmatrix}
Knm=k11k21⋮kn1k12k22⋮kn2⋯⋯⋱⋯k1mk2m⋮knm=∣z11−y1∣∣z21−y2∣⋮∣zn1−yn∣∣z12−y1∣∣z22−y2∣⋮∣zn2−yn∣⋯⋯⋱⋯∣z1m−y1∣∣z2m−y2∣⋮∣znm−yn∣
其中,a=minimink∣x0(k)−xi(k)∣a = \min\limits_{i}\min\limits_{k} \vert x_0(k) - x_i(k) \verta=iminkmin∣x0(k)−xi(k)∣,$b = \max\limits_{i}\max\limits_{k} \vert x_0(k) - x_i(k) \vert $
候选人 | YYY | Z1Z_1Z1 | Z2Z_2Z2 | Z3Z_3Z3 | Z4Z_4Z4 | ∣zk1−yk∣\vert z_{k1} - y_k \vert∣zk1−yk∣ | ∣zk2−yk∣\vert z_{k2} - y_k \vert∣zk2−yk∣ | ∣zk3−yk∣\vert z_{k3} - y_k \vert∣zk3−yk∣ | ∣zk4−yk∣\vert z_{k4} - y_k \vert∣zk4−yk∣ |
---|---|---|---|---|---|---|---|---|---|
A | 1.17 | 1.17 | 0.00 | 0.00 | 0.00 | 0.00 | 1.17 | 1.17 | 1.17 |
B | 2.45 | 1.04 | 0.90 | 2.45 | 1.00 | 1.41 | 1.55 | 0.00 | 1.45 |
C | 2.10 | 0.78 | 2.10 | 0.55 | 2.00 | 1.32 | 0.00 | 1.55 | 0.10 |
易得a=0a = 0a=0,b=1.55b = 1.55b=1.55
关联系数公式:
ξi(k)=y(x0(k),xi(k))=0+0.5×1.55∣x0(k)−xi(k)∣+0.5×1.55=0.775∣x0(k)−xi(k)∣+0.775
\xi_i(k) = y(x_0(k), x_i(k)) = \frac{0 + 0.5 \times 1.55}{\vert x_0(k) - x_i(k) \vert + 0.5 \times 1.55} = \frac{0.775}{\vert x_0(k) - x_i(k) \vert + 0.775}
ξi(k)=y(x0(k),xi(k))=∣x0(k)−xi(k)∣+0.5×1.550+0.5×1.55=∣x0(k)−xi(k)∣+0.7750.775
候选人 | ∣zk1−yk∣\vert z_{k1} - y_k \vert∣zk1−yk∣ | ∣zk2−yk∣\vert z_{k2} - y_k \vert∣zk2−yk∣ | ∣zk3−yk∣\vert z_{k3} - y_k \vert∣zk3−yk∣ | ∣zk4−yk∣\vert z_{k4} - y_k \vert∣zk4−yk∣ | ξ1\xi_1ξ1 | ξ2\xi_2ξ2 | ξ3\xi_3ξ3 | ξ4\xi_4ξ4 |
---|---|---|---|---|---|---|---|---|
A | 0.00 | 1.17 | 1.17 | 1.17 | 1.000 | 0.398 | 0.398 | 0.398 |
B | 1.41 | 1.55 | 0.00 | 1.45 | 0.355 | 0.333 | 1.000 | 0.348 |
C | 1.32 | 0.00 | 1.55 | 0.10 | 0.370 | 1.000 | 0.333 | 0.886 |
5)计算关联度
关联度公式:
ri=1n∑k=1nξi(k)=1n∑k=1ny(x0(k),xi(k))
r_i = \frac{1}{n}\sum_{k=1}^{n} \xi_i(k) = \frac{1}{n}\sum_{k=1}^{n} y(x_0(k), x_i(k))
ri=n1k=1∑nξi(k)=n1k=1∑ny(x0(k),xi(k))
候选人 | ξ1\xi_1ξ1 | ξ2\xi_2ξ2 | ξ3\xi_3ξ3 | ξ4\xi_4ξ4 | rrr |
---|---|---|---|---|---|
A | 1.000 | 0.398 | 0.398 | 0.398 | 0.575 |
B | 0.355 | 0.333 | 1.000 | 0.348 | 0.577 |
C | 0.370 | 1.000 | 0.333 | 0.886 | 0.544 |
6)计算指标权重
公式:wi=ri∑k=1mrk(i=1,2,⋯ ,m)w_i = \frac{r_i}{\sum_{k=1}^{m} r_k} (i = 1,2,\cdots, m)wi=∑k=1mrkri(i=1,2,⋯,m)
候选人 | 颜值 | 脾气(争吵次数) | 身高 | 体重 |
---|---|---|---|---|
rrr | 0.575 | 0.577 | 0.577 | 0.544 |
www | 0.253 | 0.254 | 0.254 | 0.239 |
6)计算得分并归一化
公式:Si=∑k=1mZik⋅wiS_i = \sum_{k=1}^{m} Z_{ik} \cdot w_iSi=∑k=1mZik⋅wi,S~i=Si∑k=1mSk(i=1,2,⋯ ,n)\widetilde{S}_i = \frac{S_i}{\sum_{k=1}^{m} S_k} (i = 1,2,\cdots, n)Si=∑k=1mSkSi(i=1,2,⋯,n)
候选人 | 颜值 | 脾气(争吵次数) | 身高 | 体重 | 得分 | 归一化得分 |
---|---|---|---|---|---|---|
A | 1.17 | 0.00 | 0.00 | 0.00 | 0.296 | 0.099 |
B | 1.04 | 0.90 | 2.45 | 1.00 | 1.353 | 0.451 |
C | 0.78 | 2.10 | 0.55 | 2.00 | 1.348 | 0.450 |
明星kun依旧选择了B