当前位置: 首页 > news >正文

Python训练营打卡DAY20

DAY 20 奇异值SVD分解

知识点回顾:

  1. 线性代数概念回顾(可不掌握)
  2. 奇异值推导(可不掌握)
  3. 奇异值的应用
    1. 特征降维:对高维数据减小计算量、可视化
    2. 数据重构:比如重构信号、重构图像(可以实现有损压缩,k 越小压缩率越高,但图像质量损失越大)
    3. 降噪:通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵,可以达到一定程度的降噪效果。
    4. 推荐系统:在协同过滤算法中,用户-物品评分矩阵通常是稀疏且高维的。SVD (或其变种如 FunkSVD, SVD++) 可以用来分解这个矩阵,发现潜在因子 (latent factors),从而预测未评分的项。这里其实属于特征降维的部分。

知识点回顾:

对于任何矩阵(如结构化数据可以变为:样本*特征的矩阵,图像数据天然就是矩阵),均可做等价的奇异值SVD分解,对于分解后的矩阵,可以选取保留前K个奇异值及其对应的奇异向量,重构原始矩阵,可以通过计算Frobenius 范数相对误差来衡量原始矩阵和重构矩阵的差异。\

应用:结构化数据中,将原来的m个特征降维成k个新的特征,新特征是原始特征的线性组合,捕捉了数据的主要方差信息,降维后的数据可以直接用于机器学习模型(如分类、回归),通常能提高计算效率并减少过拟合风险。

ps:在进行 SVD 之前,通常需要对数据进行标准化(均值为 0,方差为 1),以避免某些特征的量纲差异对降维结果的影响。

作业:尝试利用svd来处理心脏病预测,看下精度变化

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")plt.rcParams['font.sans-serif'] = ['SimHei']  
plt.rcParams['axes.unicode_minus'] = False    
data = pd.read_csv('heart.csv')
data.head()
data.isnull().sum()from sklearn.model_selection import train_test_split
X = data.drop(['target'], axis=1)  
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
# 对训练集和测试集进行标准化
X_train = scaler.fit_transform(X_train)
X_test= scaler.transform(X_test)
print(f"训练集形状: {X_train.shape}")
print(f"测试集形状: {X_test.shape}")
# 对训练集进行 SVD 分解
U, S, Vt = np.linalg.svd(X_train, full_matrices=False)
print(f"Vt 的形状: {Vt.shape}")
#选择适合的k值
for k in range(1, 14):explained_variance_ratio = np.cumsum(S**2) / np.sum(S**2)print(f"前 {k} 个奇异值的累计方差贡献率: {explained_variance_ratio[k-1]}")
#前 1 个奇异值的累计方差贡献率: 0.20725750322157355
#前 2 个奇异值的累计方差贡献率: 0.33159835641408375
#前 3 个奇异值的累计方差贡献率: 0.4261041158536957
#前 4 个奇异值的累计方差贡献率: 0.514568264455282
#前 5 个奇异值的累计方差贡献率: 0.5948361578090908
#前 10 个奇异值的累计方差贡献率: 0.8987659293980155
#前 11 个奇异值的累计方差贡献率: 0.9394914234782586
#前 12 个奇异值的累计方差贡献率: 0.9728991519151069
#前 13 个奇异值的累计方差贡献率: 1.0
# 选择保留的奇异值数量 k
k = 11
Vt_k = Vt[:k, :]
print(f"保留 k={k} 后的 Vt_k 矩阵形状: {Vt_k.shape}")
# 降维训练集:X_train_reduced = X_train @ Vt_k.T
X_train_reduced = X_train @ Vt_k.T
print(f"降维后训练集形状: {X_train_reduced.shape}")
# 使用相同的 Vt_k 对测试集进行降维:X_test_reduced = X_test @ Vt_k.T
X_test_reduced = X_test @ Vt_k.T
print(f"降维后测试集形状: {X_test_reduced.shape}")
# 训练模型(以lgb为例)
import lightgbm as lgb
from sklearn.metrics import accuracy_score
lgb_model = lgb.LGBMClassifier(random_state=42)
lgb_model.fit(X_train_reduced,y_train)
lgb_pred = lgb_model.predict(X_test_reduced)
accuracy = accuracy_score(y_test, lgb_pred)
print(f"测试集准确率: {accuracy}")
#对比未降维
lgb_model0 = lgb.LGBMClassifier(random_state=42)
lgb_model0.fit(X_train,y_train)
lgb_pred0 = lgb_model0.predict(X_test)
accuracy0 = accuracy_score(y_test, lgb_pred0)
print(f"测试集准确率0: {accuracy}")
# 计算训练集的近似误差(可选,仅用于评估降维效果)
X_train_approx = U[:, :k] @ np.diag(S[:k]) @ Vt_k
error = np.linalg.norm(X_train - X_train_approx, 'fro') / np.linalg.norm(X_train, 'fro')
print(f"训练集近似误差 (Frobenius 范数相对误差): {error}")
#测试集准确率: 0.8360655737704918
#训练集近似误差 (Frobenius 范数相对误差): 0.24598491116680557

数据集特征太小,未发挥SVD效能,用于图像处理是个很好的选择.

相关文章:

  • Android应用隐私合规:解决极光推送SDK提前收集WiFi信息问题
  • 三维底座+智能应用,重构城市治理未来
  • 【计算机视觉】OpenCV项目实战:get_inverse_perspective:基于OpenCV的透视图转化为不同平面
  • Uniapp编写微信小程序,使用canvas进行绘图
  • 企业如何将钉钉付款单高效集成到金蝶云星空?
  • 数智读书笔记系列032《统一星型模型--一种敏捷灵活的数据仓库和分析设计方法》
  • 开源数字人框架 AWESOME - DIGITAL - HUMAN:技术革新与行业标杆价值剖析
  • 从“山谷论坛”看AI七剑下天山
  • 十三、基于大模型的在线搜索平台——整合function calling流程
  • 【大语言模型ChatGPT4/4o 】“AI大模型+”多技术融合:赋能自然科学暨ChatGPT在地学、GIS、气象、农业、生态与环境领域中的应用
  • 捌拾叁- 量子傅里叶变换
  • 【深度学习】【目标检测】【Ultralytics-YOLO系列】YOLOV3核心文件detect.py解读
  • CSS:盒子模型
  • C# NX二次开发:宏录制实战讲解(第一讲)
  • 当当网Top500书籍信息爬取与分析
  • CSS transition过渡属性
  • # 交换排序:从冒泡到快速排序的深度解析
  • 全新UI彩虹外链网盘系统源码v5.6/前后端美化模板/整站+模版文件
  • 何时需要import css文件?怎么知道需要导入哪些css文件?为什么webpack不提示CSS导入?(导入css导入规则、css导入规范)
  • 【图像大模型】Stable Diffusion Web UI:深度解析与实战指南
  • 巴基斯坦首都及邻近城市听到巨大爆炸声
  • 玉渊谭天丨一艘航母看中国稀土出口管制为何有效
  • 普雷沃斯特当选新一任天主教罗马教皇
  • A股低开高走全线上涨:军工股再度领涨,两市成交12934亿元
  • 《2025城市青年旅行消费报告》发布,解码青年出行特征
  • 全国铁路五一假期累计发送1.51亿人次,多项运输指标创历史新高