当前位置: 首页 > news >正文

特征筛选方法总结

非模型方法
一.FILTER过滤法:
1.缺失值比例(80%以上缺失则删除)/方差
注意:
连续变量只删方差为0的,因为变量取值范围会影响方差大小。
离散类的看各类取值占比,如果是三分类变量可以视作连续变量。
函数:VarianceThreshold

二.假设检验:
卡方检验看离散变量是否独立
方差分析看离散和连续变量是否独立
F检验看连续变量是否独立

三.互信息的关联度指标:
相关系数(f_regression:是相关系数绝对值排序的结果)
最常用的是互信息法IV,注意,对于树算法,它自动筛选信息熵增益大的函数,这也是隐含了互信息法
连续变量和离散变量的互信息法:
思路:根据离散变量的取值对连续变量分组,然后衡量组内差异和组间差异,进而判断分组是否有效。


非参数和参数方法的选择:
非参数法计算效率高,大样本下能和参数方法有相同可信度,且识别连续变量间的非线性关系只能用互信息法,因此一般选非参数
当然有时间也可以取参数和非参数的交集

模型方法(特征的模型贡献度):
四.线性回归、逻辑回归看自变量系数

五.决策树类的看特征重要性指标
特性:受模型效果影响,模型效果越好,泛化能力越强,该指标越可信。并且由于模型训练存在随机性,因此该指标也存在随机性
方法:
RFE和RFECV
步骤:
训练模型,计算特征重要度,每次删除最低的几个,循环计算直到设定的个数。
存在的问题:模型会过拟合且输出结果随机

解决方法:用一个已经训练好的模型去筛选(在全量样本上先训练一个),每轮筛选都训练一个新的模型,效果也会提升
优化后的流程为:
Step 1.在全量样本上训练一个经过超参数搜索优化后的模型,或者找到一组优化后的超参数;
Step 2.将这个训练后的模型带入RFE搜索过程,并设置RFE参数n_features_to_select=1,在step=1时,RFE过程将每次剔除当前数据集中最不重要的特征,然后根据输入模型的超参数再次进行模型训练,以此往复,遍历全部特征。
Step 3.根据RFE评估器的ranking_查看每个特征的重要性排名。

选几个特征最佳?根据模型输出结果选最好的时刻,也就是RFECV:流程如下:
Step 1:根据给定的评估器,在当前数据集A1上进行训练,得到模型结果r1,并计算每个特征的重要性,即计算每个特征的coef_或feature_importances_;
Step 2:剔除最不重要的特征,即特征重要性计算结果最小的特征,得到特征子集A2,然后再次训练模型,得到模型结果r2,并计算剩余特征的特征重要性;
Step 3:如果r2优于r1,则保留A2,并在A2基础上进一步剔除最不重要的特征得到特征子集A3,并进行模型训练,得到此时模型结果r3,以及A3各特征重要性,并不断重复该过程;反之如果r1优于r2,则保留A1,停止迭代;或者在多轮迭代过程中,任意子集的建模效果弱于父集,则停止迭代。
注意:方差分析等一般用于指标初筛,RFE用于精筛
 
SFM:设定特征重要性阈值然后筛
阈值设定:启发式:均值/中位数/均值*0.1

六.SFS 
1.分类:
前向:选一个特征然后逐渐加入,每步贪心,选效果最好的
后向:选所有特征然后逐渐删除,每步贪心,选效果最好的
2.
优点:不借助特征评估指标,可以围绕不产生特征评估指标的模型进行搜索
缺点:无法对每个备选特征子集单独优化超参数,已模型效果为搜索依据的过程,模型本身精度不足。

相关文章:

  • 十三、Hive 行列转换
  • RAG+AI工作流+Agent:LLM框架该如何选择
  • 进程和线程有什么区别?多线程有什么优缺点?线程的创建方式有哪些?如何简单的使用线程?用户线程和守护线程有什么区别?start 和 run 方法有什么区别?
  • leetcode239 滑动窗口最大值deque方式
  • hexo博客搭建使用
  • 数据分析—Excel数据清洗函数
  • Kotlin 协程
  • 使用Docker部署React应用与Nginx
  • 【C++】map和multimap的常用接口详解
  • 易境通海外仓系统:一件代发全场景数字化解决方案
  • 【vs2022的C#窗体项目】打开运行+sql Server改为mysql数据库+发布
  • 终端安全与终端管理:有什么区别及其重要性?
  • SQL:多列匹配(Multiple-column Matching)
  • Kubernetes MCP服务器(K8s MCP):如何使用?
  • 深度学习————模型保存与部署
  • Word2Vec详解
  • IDEA+AI 深度融合:重构高效开发的未来模式
  • Unity实用技能-UI定位总结
  • 从秒开到丝滑体验!WebAssembly助力ZKmall商城重构 B2B2C 商城性能基线
  • AI大语言模型评测体系演进与未来展望
  • 《中华人民共和国经济史(1949—1978年)》教材出版发行
  • 浙江广厦:诚挚道歉,涉事责任人交公安机关
  • 缅甸发生5.0级地震
  • 上百家单位展示AI+教育的实践与成果,上海教育博览会开幕
  • 本周看啥|《歌手》今晚全开麦直播,谁能斩获第一名?
  • 中期选举后第三势力成“莎拉弹劾案”关键,菲律宾权斗更趋复杂激烈