当前位置: 首页 > news >正文

从0开始学习R语言--Day57--SCAD模型

在之前,我们提到过对于基因数据,我们会倾向于用弹性网络去建模,这样可以做到节省大量计算量的同时,保留关键的变量做筛选;但是实际上弹性网络本质上是用两种方法的结合去拟合,得到的函数是凸函数,从而不可避免的会产生偏差。

相比之下,SCAD则选择更直接的分段建模,这样可以最大程度地保留原有特征的特点,同时做到更优的筛选,只是计算复杂度会更高,需要谨慎使用。

以下是一个例子:

# 加载必要的包
library(ncvreg)
library(ggplot2)# 生成模拟数据集
set.seed(123)
n <- 200
p <- 10
X <- matrix(rnorm(n * p), n, p)
colnames(X) <- paste0("X", 1:p)
true_beta <- c(3, 1.5, 2, rep(0, p-3))
y <- X %*% true_beta + rnorm(n, sd = 1.5)# 使用SCAD进行变量选择
scad_fit <- ncvreg(X, y, penalty = "SCAD")# 使用交叉验证选择最优λ
cv_fit <- cv.ncvreg(X, y, penalty = "SCAD")# 查看交叉验证结果
#print(cv_fit)# 获取最优λ值 (这里使用最小化误差的λ)
best_lambda <- cv_fit$lambda.min# 查看最优模型的摘要
summary(scad_fit, lambda = best_lambda)# 查看最优模型的系数
coef(scad_fit, lambda = best_lambda)# 绘制系数路径图
plot(scad_fit)
abline(v = log(best_lambda), lty = 2, col = "red")  # 标记最优λ位置# 可视化比较
results <- data.frame(Variable = colnames(X),True = true_beta,SCAD = coef(scad_fit, lambda = best_lambda)[-1]  # 去掉截距项
)ggplot(results, aes(x = Variable)) +geom_point(aes(y = True, color = "True"), size = 3) +geom_point(aes(y = SCAD, color = "SCAD"), size = 3) +labs(title = paste("真实系数与SCAD估计比较 (λ =", round(best_lambda, 4), ")"),y = "系数值",color = "类型") +theme_minimal()

输出:

SCAD-penalized linear regression with n=200, p=10
At lambda=0.3861:
-------------------------------------------------Nonzero coefficients         :   3Expected nonzero coefficients:   0.00Average mfdr (3 features)    :   0.000Estimate     z    mfdr Selected
X1    3.003 30.39 < 1e-04        *
X3    2.014 20.85 < 1e-04        *
X2    1.547 16.53 < 1e-04        *(Intercept)          X1          X2          X3          X4          X5          X6          X7 -0.1908806   3.0030121   1.5470496   2.0140936   0.0000000   0.0000000   0.0000000   0.0000000 X8          X9         X10 0.0000000   0.0000000   0.0000000 

结果表明,X1、X2、X3系数非零,且mfdr < 1e-04,统计学显著,是显著变量;mdfr值极低,说明假阳性的风险极低;当lambda较大时,系数基本被压缩为0,说明模型趋于稀疏;而lambda在减少时,系数先快速上升再逐渐趋于平缓,说明其具有收敛性和稳定性。

http://www.dtcms.com/a/297530.html

相关文章:

  • 无需 Root 关闭联网验证 随意修改手机名称(适用于OPPO、一加、真我)
  • 图论水题日记
  • 图论:最小生成树
  • 从零开始:在 PyCharm 中搭建 Django 商城的用户注册与登录功能(轮播图+商品页-小白入门版)
  • 判断子序列-leetcode
  • HAL 中断
  • Python 数据分析(一):NumPy 基础知识
  • Kubernetes资源优化完整指南:从理论到实践的全面解决方案
  • Python之JSON:数据交换的轻量级桥梁
  • 【Unity笔记】OpenXR 之VR串流开发笔记:通过RenderTexture实现仅在PC端展示UI,在VR眼镜端隐藏UI
  • C语言|指针的应用
  • 算法:最长递增子序列解法记录
  • 【RDMA】Adapters PRM Mellanox Adapters Programmer’s Reference mellanox网卡编程手册0.52
  • C 语言输入输出 (I/O)
  • 数据结构学习之堆
  • 【C语言进阶】一篇文章教会你文件的读写
  • 基于GeoTools和SpringBoot的省域驾车最快路线生成实践
  • 金仓数据库:融合与智能驱动下的革新与未来
  • SpringBoot实战指南:从快速入门到生产级部署(2025最新版)
  • 通用CI/CD软件平台TeamCity v2025.3全新发布——主要界面交互体验升级
  • SqlRest让SQL秒变Http API,还支持20+数据库(含国产数据库)
  • S7-1500 与 ET200MP 的组态控制通信(Configuration Control)功能实现详解(下)
  • STM32基础知识学习笔记:ICODE、DCODE、DMA等常见名词的解释
  • c语言-数据结构-沿顺相同树解决对称二叉树问题的两种思路
  • Canal 1.1.7的安装
  • 京东获得JD商品详情 API 返回值说明||京东API接入文档
  • 二开----02
  • (2023AAAI)T2I-Adapter:学习挖掘文本到图像扩散模型的更可控能力
  • linux系统底层逻辑 开机顺序 ubuntu22.04系统
  • ubuntu中有不同版本的pcl时的使用策略