当前位置: 首页 > news >正文

网站建设上机课wordpress cenos

网站建设上机课,wordpress cenos,实木餐桌椅网站建设,wordpress登录密码忘了怎么办第8集:降维技术——主成分分析(PCA) 在机器学习中,降维(Dimensionality Reduction) 是一种重要的数据处理技术,用于减少特征维度、去除噪声并提高模型效率。主成分分析(Principal C…

第8集:降维技术——主成分分析(PCA)

在机器学习中,降维(Dimensionality Reduction) 是一种重要的数据处理技术,用于减少特征维度、去除噪声并提高模型效率。主成分分析(Principal Component Analysis, PCA) 是最经典的线性降维方法之一,广泛应用于数据可视化、特征提取和图像压缩等领域。今天我们将深入探讨 PCA 的数学原理,并通过实践部分使用 MNIST 手写数字数据集 进行降维与可视化。


维度灾难问题

什么是维度灾难?

随着特征维度的增加,数据的稀疏性会急剧上升,导致模型训练变得更加困难。这种现象被称为 维度灾难(Curse of Dimensionality)。高维数据不仅增加了计算复杂度,还可能导致过拟合。因此,降维技术成为解决这一问题的重要工具。

图1:维度灾难示意图
(图片描述:三维空间中展示了低维数据点的分布较为密集,而高维空间中数据点变得稀疏,难以捕捉模式。)
在这里插入图片描述


PCA 的数学原理

PCA 的核心思想

PCA 的目标是通过线性变换将原始高维数据投影到一个低维子空间,同时尽可能保留数据的主要信息。具体步骤如下:

  1. 标准化数据:对每个特征进行零均值化和单位方差缩放。
  2. 计算协方差矩阵:衡量特征之间的相关性。
  3. 特征分解:求解协方差矩阵的特征值和特征向量。
  4. 选择主成分:按特征值大小排序,选择前 $ k $ 个特征向量作为主成分。
  5. 投影数据:将原始数据投影到主成分构成的低维空间。

公式如下:
Covariance Matrix:  Σ = 1 n X T X \text{Covariance Matrix: } \Sigma = \frac{1}{n} X^T X Covariance Matrix: Σ=n1XTX
Eigen Decomposition:  Σ v = λ v \text{Eigen Decomposition: } \Sigma v = \lambda v Eigen Decomposition: Σv=λv
其中:

  • $ \Sigma $ 是协方差矩阵。
  • $ \lambda $ 是特征值,表示主成分的重要性。
  • $ v $ 是特征向量,表示主成分的方向。

如何解释主成分

主成分是数据变化方向的线性组合,每个主成分解释了数据总方差的一部分。我们可以通过以下指标评估主成分的重要性:

  1. 特征值占比:每个主成分对应的特征值占总特征值的比例。
  2. 累计贡献率:前 k 个主成分解释的总方差比例。

图2:主成分累计贡献率图
(图片描述:折线图展示了前 $ k $ 个主成分的累计贡献率,随着主成分数量增加,累计贡献率逐渐接近 100%。)
在这里插入图片描述


PCA 在图像压缩中的应用

PCA 可以用于图像压缩,通过保留最重要的主成分来减少存储空间。例如,对于一张灰度图像,可以将其像素矩阵展平为一维向量,然后使用 PCA 提取主要特征,从而实现压缩。


实践部分:使用 PCA 对 MNIST 手写数字数据集进行降维并可视化

数据集简介

MNIST 数据集包含 70,000 张 28x28 像素的手写数字图像(0-9)。每张图像被展平为 784 维向量。我们将使用 PCA 将数据降维到二维空间,并对其进行可视化。

完整代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler# 加载 MNIST 数据集
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist['data'], mnist['target']# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 使用 PCA 降维到二维
pca = PCA(n_components=2, random_state=42)
X_pca = pca.fit_transform(X_scaled)# 可视化降维结果
plt.figure(figsize=(12, 8))
for i in range(10):  # 遍历 0-9 数字类别plt.scatter(X_pca[y.astype(int) == i, 0], X_pca[y.astype(int) == i, 1], label=f'Digit {i}', alpha=0.6)
plt.title('MNIST Data Visualization using PCA', fontsize=16)
plt.xlabel('Principal Component 1', fontsize=12)
plt.ylabel('Principal Component 2', fontsize=12)
plt.legend()
plt.grid()
plt.show()# 输出主成分的累计贡献率
explained_variance_ratio = pca.explained_variance_ratio_
print(f"主成分1解释的方差比例: {explained_variance_ratio[0]:.2f}")
print(f"主成分2解释的方差比例: {explained_variance_ratio[1]:.2f}")
print(f"累计贡献率: {sum(explained_variance_ratio):.2f}")

运行结果

降维结果可视化

图3:PCA 降维后的 MNIST 数据分布
(图片描述:二维散点图展示了不同数字类别的分布情况,每个类别用不同颜色表示,清晰地展示了数字之间的聚类效果。)
在这里插入图片描述

输出结果
主成分1解释的方差比例: 0.06
主成分2解释的方差比例: 0.04
累计贡献率: 0.10

总结

本文介绍了 PCA 的数学原理及其在降维和图像压缩中的应用,并通过实践部分展示了如何使用 PCA 对 MNIST 数据集进行降维和可视化。希望这篇文章能帮助你更好地理解 PCA!


参考资料

  • Scikit-learn 文档: https://scikit-learn.org/stable/documentation.html
  • MNIST 数据集: https://www.openml.org/d/554*
http://www.dtcms.com/a/481015.html

相关文章:

  • php租车网站源码邯郸市中考管理平台官网
  • 免费高清图片素材网站推荐触动网站建设
  • 在潮州哪里找做网站的wordpress 网站地图
  • 网站建设 上传和下载功能海外站推广
  • 自己做门户网站扬中做网站
  • 博罗做网站公司网站建设技术分为哪些方向
  • php小网站网站开发的工作总结
  • 何做百度推广网站wampserver装wordpress
  • 外贸网站怎么做才好旅游网站模板html5
  • 建站宝盒下载品牌网站是什么
  • 机器设备行业网站模板以前做弹幕现在的电影网站
  • 中国建设招标网官方网站网站别名
  • 阿里云的网站建设方案网站建设网站搭建
  • 后缀是.cc的网站为什么说做网站赚钱
  • 方案网站衡水网站建设推广
  • 深圳各大网站制作哪家公司好微信公众号怎么做文章编辑
  • 网站开发 英文做婚庆的网站有哪些
  • 最美情侣免费观看网站优化师负责干什么
  • 网站开发主要内容和要求中国订单网
  • wordpress epix v1.2深圳白帽优化
  • vi设计整套网站开发图片加载过慢如何优化
  • 申请网站就是做网站吗网站建设前台后台教
  • ae模板下载网站推荐家私网站栏目和功能需求策划
  • 如何做招生网站网站建设客源在哪里找
  • 优化网站规模网站copyright写法
  • 长春电商网站建设多少钱网站设计便宜
  • 网站开发 合同范本做网站设计师
  • 做站群一个网站多少钱旅游网站开发工具
  • 做网站前台模型要做什么呢品牌策划是什么
  • 邵东微网站建设编程外包平台