当前位置：首页 > news >正文

逻辑回归特征重要性排序实验报告：不同特征选择方法的排序一致性验证

news 2025/11/1 8:34:44

逻辑回归特征重要性排序实验报告：不同特征选择方法的排序一致性验证

1. 引言

在逻辑回归建模中，特征重要性排序直接影响模型可解释性和特征工程策略。本实验旨在验证三种常用特征选择方法生成的排序一致性：

系数绝对值法：基于逻辑回归系数$|\beta_j|$
递归特征消除法：通过迭代剔除特征
基于树的方法：使用随机森林的Gini重要性

通过计算Kendall Tau一致性系数，评估不同方法排序结果的相关性，公式为：
$$\tau = \frac{C - D}{\sqrt{(C + D + T_x)(C + D + T_y)}}$$
其中$C$为一致对，$D$为不一致对，$T$为结值（tie）。

2. 实验设计

数据集：威斯康星乳腺癌数据集（569样本×30特征）
预处理：标准化处理，目标变量为二分类（恶性/良性）

特征选择方法	参数设置
系数绝对值法	逻辑回归正则化强度$C=1.0$
递归特征消除（RFE）	保留10个特征，步长=1
随机森林Gini重要性	树数量=100，最大深度=5

一致性验证流程：

分别用三种方法生成特征重要性排序
两两计算Kendall Tau系数（共3组对比）
重复实验50次，取系数均值

3. 结果分析

3.1 排序结果示例（前5重要特征）

特征	系数绝对值法	RFE法	随机森林法
`worst radius`	1	2	1
`mean texture`	3	1	4
`worst perimeter`	2	3	2

3.2 一致性系数（均值±标准差）

方法对比	Kendall Tau $\tau$
系数绝对值法 vs RFE	$0.72 \pm 0.08$
系数绝对值法 vs 随机森林	$0.65 \pm 0.11$
RFE vs 随机森林	$0.58 \pm 0.09$

关键发现：

系数绝对值法与RFE一致性最高（$\tau > 0.7$），因二者均基于线性模型结构
随机森林与其他方法一致性较低，反映非线性特征交互的影响
特征worst radius在三种方法中均排名前2，表明其稳定重要性

4. 讨论

不一致性根源：

方法原理差异：线性方法（系数/RFE）与树方法对特征交互的敏感性不同
特征相关性：高相关特征组（如radius/perimeter）在排序中易发生置换
正则化影响：L2正则化压缩系数，导致$\beta_j$绝对值排序偏移

工程建议：

优先使用系数绝对值法获取可解释性排序
当特征相关性高时，采用RFE避免冗余特征干扰
需验证非线性关系时，随机森林可作为补充视角

5. 结论

不同特征选择方法在逻辑回归特征重要性排序上呈现中度一致性（$\tau \in [0.58, 0.72]$）。推荐组合使用线性与非线性方法，并通过一致性系数量化排序可靠性。未来工作可引入SHAP值进一步统一特征重要性评估框架。

附录代码：Kendall Tau计算实现

from scipy.stats import kendalltau  
tau, p_value = kendalltau(  rank_coef,   # 系数绝对值法排序  rank_rfe     # RFE法排序  
)

查看全文

http://www.dtcms.com/a/553000.html

深入解析MySQL(6)——存储过程、游标与触发器

Linux操作系统学习之---线程池

做网站免费字体wordpress的slider

“十五五”规划前瞻：短剧小程序系统开发的技术浪潮与开发新机遇

Rust开发之使用 Trait 定义通用行为——实现形状面积计算系统

解决小程序滚动穿透问题

《风格锚点+动态适配：Unity跨设备渲染的核心逻辑》

Unity与iOS原生交互开发入门篇 - 调用iOS的Alert

旧物二手回收小程序：引领绿色消费，开启时尚生活新方式

LeetCode 3289.数字小镇中的捣蛋鬼：哈希表O(n)空间 / 位运算O(1)空间

Cargo深度解析：Rust的构建系统与包管理器

站长之家官网php做的网站如何运行

Bayes/BO-CNN-LSTM、CNN-LSTM、LSTM三模型多变量回归预测Matlab

# AI时代的人机交互写作：从方法论框架搭建到实践探索

【fixchart】【来学习基于Mermaid语法生成“流程图”】

解决小程序样式隔离styleIsolation

改变世界的编程语言MoonBit：配置系统介绍(下)

mip网站推广普通话宣传周活动方案

EL(F)K日志分析系统

算法题——图论

AutoCAD开发：主流语言与实用插件精选

余姚响应式网站建设做个网站应该怎么做

Docker 日志管理实战：轻松掌控容器输出

移动端h5适配方案

【雅思备考】雅思写作笔记

亚马逊产品备案网站建设要求域名不变修改网站怎么做

6-3〔O҉S҉C҉P҉ ◈ 研记〕❘ 客户端攻击▸通过宏文件实现反向shell

Python 实现 Excel 连续数据分组求平均值

小红书获取笔记详情API接口运用指南

SQL 自连接详解：当数据表需要与自己对话（组织层级实战）

逻辑回归特征重要性排序实验报告：不同特征选择方法的排序一致性验证

1. 引言

2. 实验设计

3. 结果分析

4. 讨论

5. 结论

相关文章：