当前位置：首页 > news >正文

散点图（散点矩阵）相关介绍

news 2025/8/2 7:28:44

前言

提醒：
文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。
其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展及意见建议，欢迎评论区讨论交流。

内容由AI辅助生成，仅经笔者审核整理，请甄别食用。

文章目录

前言
- - 散点矩阵与高维函数可视化的数学原理
  - 一、散点矩阵的数学定义与性质
  - - 1. 数据矩阵与中心化
    - 2. 散点矩阵的数学表达
    - 3. 散点矩阵的核心性质
  - 二、散点矩阵在高维函数可视化中的应用
  - - 1. 可视化与矩阵元素的对应关系
    - 2. 高维函数的局部线性近似
    - 3. 特征选择与降维
  - 三、高维函数可视化的数学挑战
  - - 1. 维度灾难与信息损失
    - 2. 非线性关系的捕捉
  - 四、总结

散点矩阵与高维函数可视化的数学原理

在高维数据分析中，散点矩阵（Scatter Matrix） 是连接数学理论与可视化实践的核心工具。它不仅是一个几何图形，更是多维统计分析的数学抽象。下面结合公式深入解析其原理。

一、散点矩阵的数学定义与性质

1. 数据矩阵与中心化

设高维函数采样数据为 $X∈Rn×p\mathbf{X} \in \mathbb{R}^{n \times p}$ ，其中：

$n$ 是样本数（如100个点）
$p$ 是维度（如5个变量）
$x_{ij}$ 表示第 $i$ 个样本的第 $j$ 个特征值

中心化数据矩阵：
$Xc=X−1n⋅XˉT\mathbf{X}_c = \mathbf{X} - \mathbf{1}_n \cdot \bar{\mathbf{X}}^T$
其中 $Xˉ\bar{\mathbf{X}}$ 是各维度均值向量， $1n\mathbf{1}_n$ 是 $\times 1$ 的全1向量。

2. 散点矩阵的数学表达

散点矩阵 $S∈Rp×p\mathbf{S} \in \mathbb{R}^{p \times p}$ 定义为：
$S=XcTXc=∑i=1n(xi−xˉ)(xi−xˉ)T\mathbf{S} = \mathbf{X}_c^T \mathbf{X}_c = \sum_{i=1}^n (\mathbf{x}_i - \bar{\mathbf{x}})(\mathbf{x}_i - \bar{\mathbf{x}})^T$
其元素 $s_{jk}$ 表示维度 $j$ 与 $k$ 的交叉离差和：
$sjk=∑i=1n(xij−xˉj)(xik−xˉk)s_{jk} = \sum_{i=1}^n (x_{ij} - \bar{x}_j)(x_{ik} - \bar{x}_k)$

3. 散点矩阵的核心性质

对称性： $S=ST\mathbf{S} = \mathbf{S}^T$
半正定性：对任意非零向量 $v\mathbf{v}$ ，有 $vTSv≥0\mathbf{v}^T \mathbf{S} \mathbf{v} \geq 0$
与协方差矩阵的关系： $Cov(X)=1n−1S\text{Cov}(\mathbf{X}) = \frac{1}{n-1} \mathbf{S}$

二、散点矩阵在高维函数可视化中的应用

1. 可视化与矩阵元素的对应关系

散点矩阵图中的每个子图对应 $S\mathbf{S}$ 的一个元素 $s_{jk}$ ：

对角线元素 $s_{jj}$ ：对应变量 $j$ 的直方图/密度图（反映方差）
非对角线元素 $s_{jk}$ ：对应变量 $j$ 与 $k$ 的散点图（反映协方差）

例如，对于4维函数 $f(x_1, x_2, x_3, x_4)$ ，其散点矩阵图为4×4网格，包含12个散点图和4个直方图。

2. 高维函数的局部线性近似

对于高维函数 $f(\mathbf{x})$ ，其在点 $x0\mathbf{x}_0$ 附近的泰勒展开式为：
$f(x)≈f(x0)+∇f(x0)T(x−x0)f(\mathbf{x}) \approx f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T (\mathbf{x} - \mathbf{x}_0)$
其中 $∇f\nabla f$ 是梯度向量。通过散点矩阵分析各维度间的线性关系，可近似函数的局部行为。

3. 特征选择与降维

散点矩阵的特征值分解（EVD）：
$S=VΛVT\mathbf{S} = \mathbf{V} \mathbf{\Lambda} \mathbf{V}^T$
其中：

$Λ=diag(λ1,λ2,…,λp)\mathbf{\Lambda} = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_p)$ 是特征值矩阵
$V\mathbf{V}$ 的列向量是特征向量（对应主成分方向）

通过保留前 $k$ 个最大特征值对应的特征向量，可将 $p$ 维数据投影到 $k$ 维子空间（如PCA降维），并在散点矩阵图中可视化关键维度。

三、高维函数可视化的数学挑战

1. 维度灾难与信息损失

当 $p$ 很大时：

散点矩阵图规模为 $\times p$ ，信息过载
直接可视化高维结构需依赖降维算法（如t-SNE、UMAP），但这些算法可能扭曲原始数据的几何性质

2. 非线性关系的捕捉

对于非线性函数 $f(x)f(\mathbf{x})$ ，散点矩阵只能反映线性相关性。需结合非线性变换（如核方法）：
$Kij=ϕ(xi)Tϕ(xj)\mathbf{K}_{ij} = \phi(\mathbf{x}_i)^T \phi(\mathbf{x}_j)$
其中 $ϕ\phi$ 是将数据映射到高维特征空间的非线性变换， $K\mathbf{K}$ 是核矩阵。