逻辑回归特征重要性排序实验报告:不同特征选择方法的排序一致性验证
逻辑回归特征重要性排序实验报告:不同特征选择方法的排序一致性验证
1. 引言
在逻辑回归建模中,特征重要性排序直接影响模型可解释性和特征工程策略。本实验旨在验证三种常用特征选择方法生成的排序一致性:
- 系数绝对值法:基于逻辑回归系数$|\beta_j|$
- 递归特征消除法:通过迭代剔除特征
- 基于树的方法:使用随机森林的Gini重要性
通过计算Kendall Tau一致性系数,评估不同方法排序结果的相关性,公式为:
$$\tau = \frac{C - D}{\sqrt{(C + D + T_x)(C + D + T_y)}}$$
其中$C$为一致对,$D$为不一致对,$T$为结值(tie)。
2. 实验设计
数据集:威斯康星乳腺癌数据集(569样本×30特征)
预处理:标准化处理,目标变量为二分类(恶性/良性)
| 特征选择方法 | 参数设置 |
|---|---|
| 系数绝对值法 | 逻辑回归正则化强度$C=1.0$ |
| 递归特征消除(RFE) | 保留10个特征,步长=1 |
| 随机森林Gini重要性 | 树数量=100,最大深度=5 |
一致性验证流程:
- 分别用三种方法生成特征重要性排序
- 两两计算Kendall Tau系数(共3组对比)
- 重复实验50次,取系数均值
3. 结果分析
3.1 排序结果示例(前5重要特征)
| 特征 | 系数绝对值法 | RFE法 | 随机森林法 |
|---|---|---|---|
worst radius | 1 | 2 | 1 |
mean texture | 3 | 1 | 4 |
worst perimeter | 2 | 3 | 2 |
3.2 一致性系数(均值±标准差)
| 方法对比 | Kendall Tau $\tau$ |
|---|---|
| 系数绝对值法 vs RFE | $0.72 \pm 0.08$ |
| 系数绝对值法 vs 随机森林 | $0.65 \pm 0.11$ |
| RFE vs 随机森林 | $0.58 \pm 0.09$ |
关键发现:
- 系数绝对值法与RFE一致性最高($\tau > 0.7$),因二者均基于线性模型结构
- 随机森林与其他方法一致性较低,反映非线性特征交互的影响
- 特征
worst radius在三种方法中均排名前2,表明其稳定重要性
4. 讨论
不一致性根源:
- 方法原理差异:线性方法(系数/RFE)与树方法对特征交互的敏感性不同
- 特征相关性:高相关特征组(如
radius/perimeter)在排序中易发生置换 - 正则化影响:L2正则化压缩系数,导致$\beta_j$绝对值排序偏移
工程建议:
- 优先使用系数绝对值法获取可解释性排序
- 当特征相关性高时,采用RFE避免冗余特征干扰
- 需验证非线性关系时,随机森林可作为补充视角
5. 结论
不同特征选择方法在逻辑回归特征重要性排序上呈现中度一致性($\tau \in [0.58, 0.72]$)。推荐组合使用线性与非线性方法,并通过一致性系数量化排序可靠性。未来工作可引入SHAP值进一步统一特征重要性评估框架。
附录代码:Kendall Tau计算实现
from scipy.stats import kendalltau tau, p_value = kendalltau( rank_coef, # 系数绝对值法排序 rank_rfe # RFE法排序 )
