当前位置：首页 > news >正文

线性代数 · SVD | 从线性代数到数据科学的“盛大”应用（scr:bzv)

news 2025/11/16 5:51:12

注：本文为 “奇异值分解” B 站相关视频的无图转录笔记。
略作重排，有删增，如有内容异常，请看 bz 视频原链。

奇异值分解：从线性代数到数据科学的关键工具

一、引言：奇异值分解的双重意义

奇异值分解（Singular Value Decomposition，SVD）在数学领域中占据着举足轻重的地位，堪称线性代数的集大成者，它将线性代数的关键概念巧妙地融合在一个简洁而强大的定理之中。同时，在当今数据科学与机器学习蓬勃发展的时代，SVD 也展现出了极高的实用性和相关性，成为众多前沿技术的基石。

从数学理论的角度来看，SVD 是一种极为通用的矩阵分解方法。其核心要义令人惊叹：对于任意一个矩阵，无论它是否为对称矩阵，规模大小如何，形状是方阵还是矩形，都能毫无条件地分解为三个具有特殊性质的矩阵。这种分解方式不仅在理论上具有深刻的意义，而且为解决各种复杂的数学问题提供了有力的工具。

SVD 的背后，还隐藏着一种直观且精妙的可视化解读方式，它为我们理解矩阵变换提供了一个全新的视角。通过可视化，我们能够更加深入地洞察矩阵所代表的线性变换的本质，将抽象的数学概念转化为直观的几何图像，从而更好地掌握其内在规律。

二、概念解析：矩阵与向量空间的基础逻辑

（一）向量空间的维度差异

在向量空间的研究中，维度是一个关键属性，它决定了向量的本质特征和空间的结构。以二维空间向量和三维空间向量为例，二维向量通常表示为 $(x, y)$ 的形式，它仅存在于一个平面内，只有两个维度，即 $x$ 轴和 $y$ 轴方向的分量；而三维向量则表示为 $(x, y, z)$ ，多了一个 $z$ 轴方向的分量，存在于三维立体空间中。

从坐标表示上看，二维向量 $(1, 2)$ 与三维向量 $(1, 2, 0)$ 具有一定的相似性，都包含了 $x$ 分量为 $1$ ， $y$ 分量为 $2$ 。然而，它们的本质区别在于，二维向量 $(1, 2)$ 根本不存在 $z$ 分量，并且无论对其进行何种线性变换，如旋转、拉伸或缩放，都无法使其产生 $z$ 分量；而三维向量 $(1, 2, 0)$ 虽然 $z$ 分量当前为 $0$ ，但它具有 $z$ 维度的属性，其 $z$ 分量可以根据具体的变换或条件设定为任意值。这种差异体现了不同维度空间向量的本质特征，是理解矩阵在不同维度空间中进行线性变换的基础。

（二）维度变换矩阵的关键作用

矩阵作为线性代数中的重要工具，在向量空间的维度变换中扮演着关键角色。维度消除矩阵和维度添加矩阵是两种典型的用于实现维度变换的矩阵。

维度消除矩阵：

以 $\times 3$ 矩阵 $[100010]\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}$ 为例，它的作用是将三维空间向量映射到二维空间。当一个三维向量 $(x, y, z)$ 与该矩阵相乘时，根据矩阵乘法规则，得到的结果是 $(x, y)$ ，即保留了原向量的 $x$ 和 $y$ 分量，而完全消除了 $z$ 分量。例如，对于三维向量 $(1, 2, 1)$ ，经过该矩阵变换后变为 $(1, 2)$ 。更为普遍的情况是，所有形如 $(1, 2, z)$ 的三维向量，无论 $z$ 取何值，最终都会被映射到二维向量 $(1, 2)$ 。这一过程就像是矩阵对空间维度进行了 “过滤”，将三维空间中的信息压缩到二维空间中，只保留了特定维度的关键信息，体现了矩阵在维度变换中的 “降维” 功能。
维度添加矩阵：

如 $\times 2$ 矩阵 $[100100]\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}$ ，其作用与维度消除矩阵相反，是将二维向量转换为三维向量。当一个二维向量 $(x, y)$ 与该矩阵相乘时，得到的结果是 $(x, y, 0)$ ，即在原二维向量的基础上，额外添加了一个 $z$ 分量，且这个 $z$ 分量的值默认为 $0$ 。这种矩阵实现了低维空间向量到高维空间的嵌入，为后续在高维空间中进行更复杂的线性变换提供了基础操作单元。通过维度添加矩阵，我们可以将二维空间中的数据或信息扩展到三维空间中进行处理，丰富了数据的表达和分析维度。

三、矩阵分解的关键步骤：从对称矩阵到奇异值构造

（一）对称矩阵的特殊性与正交变换

对称矩阵是矩阵家族中一类具有独特性质的矩阵，其定义为矩阵元素关于主对角线对称，即对于矩阵 $A=(a_{ij})$ ，满足 $a_{ij}=a_{ji}$ ，其中 $i$ 和 $j$ 为矩阵的行索引和列索引。这种对称性赋予了对称矩阵一系列特殊的性质，使其在矩阵理论和实际应用中都具有重要地位。

对称矩阵最显著的性质之一是其特征向量彼此正交。这意味着对于一个对称矩阵 $A$ ，如果 $λ1\lambda_1$ 和 $λ2\lambda_2$ 是 $A$ 的两个不同特征值，对应的特征向量分别为 $v⃗1\vec{v}_1$ 和 $v⃗2\vec{v}_2$ ，那么 $v⃗1⋅v⃗2=0\vec{v}_1 \cdot \vec{v}_2 = 0$ ，即这两个特征向量相互垂直。这种正交性为矩阵的分解和分析提供了极大的便利。

我们可以对这些特征向量进行单位化处理，使其长度为 $1$ 。将单位化后的特征向量按列排列，组成一个新的矩阵 $U$ ，这个矩阵 $U$ 就是正交矩阵。正交矩阵满足 $U⊤U=IU^\top U = I$ ，其中 $U⊤U^\top$ 是 $U$ 的转置矩阵， $I$ 是单位矩阵。正交矩阵的行向量和列向量都是单位向量且相互正交，它在空间变换中具有保持向量长度和夹角不变的特性，其主要作用是实现空间的旋转操作。

在二维空间中，对于一个 $\times 2$ 的对称矩阵 $[abbc]\begin{bmatrix} a & b \\ b & c \end{bmatrix}$ ，假设其特征向量分别为 $v⃗1=(x1,y1)\vec{v}_1 = (x_1, y_1)$ 和 $v⃗2=(x2,y2)\vec{v}_2 = (x_2, y_2)$ ，经过单位化后组成正交矩阵 $\begin{bmatrix} x_1 & x_2 \\ y_1 & y_2 \end{bmatrix}$ 。当我们对一个向量 $v⃗\vec{v}$ 左乘 $U$ 时，相当于将向量 $v⃗\vec{v}$ 从标准基下的表示转换到以特征向量为基的表示，实现了空间的旋转，使得向量 $v⃗\vec{v}$ 与特征向量的方向对齐；而右乘 $U⊤U^\top$ 则是将以特征向量为基表示的向量转换回标准基下的表示，即将特征向量旋转回标准基方向。这种正交变换是矩阵分解的重要基石，为后续奇异值分解等操作奠定了基础，它使得我们能够将复杂的矩阵变换分解为一系列简单的旋转操作，从而更深入地理解矩阵变换的本质。

（二）非对称矩阵的对称化构造

在实际应用中，我们遇到的大多数矩阵并非都是对称矩阵，然而，我们可以通过一种巧妙的方法为非对称矩阵构造出对称性。对于任意一个矩阵 $A$ ，无论其行数和列数如何，我们可以通过计算其转置矩阵 $A⊤A^\top$ 与自身的乘积来得到对称矩阵。具体来说， $A⊤AA^\top A$ 和 $AA⊤AA^\top$ 均为对称矩阵。

以一个 $\times 3$ 的矩阵 $\begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \end{bmatrix}$ 为例，计算 $A⊤AA^\top A$ ：

$A⊤A=[a11a21a12a22a13a23][a11a12a13a21a22a23]=[∑i=12ai12∑i=12ai1ai2∑i=12ai1ai3∑i=12ai2ai1∑i=12ai22∑i=12ai2ai3∑i=12ai3ai1∑i=12ai3ai2∑i=12ai32]\begin{aligned} A^\top A &= \begin{bmatrix} a_{11} & a_{21} \\ a_{12} & a_{22} \\ a_{13} & a_{23} \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \end{bmatrix} \\ &= \begin{bmatrix} \sum_{i=1}^{2}a_{i1}^2 & \sum_{i=1}^{2}a_{i1}a_{i2} & \sum_{i=1}^{2}a_{i1}a_{i3} \\ \sum_{i=1}^{2}a_{i2}a_{i1} & \sum_{i=1}^{2}a_{i2}^2 & \sum_{i=1}^{2}a_{i2}a_{i3} \\ \sum_{i=1}^{2}a_{i3}a_{i1} & \sum_{i=1}^{2}a_{i3}a_{i2} & \sum_{i=1}^{2}a_{i3}^2 \end{bmatrix} \end{aligned}$

可以看到， $A⊤AA^\top A$ 是一个 $\times 3$ 的方阵，并且关于主对角线对称，是对称矩阵。

同理，计算 $AA⊤AA^\top$ 可得：

$AA⊤=[a11a12a13a21a22a23][a11a21a12a22a13a23]=[∑j=13a1j2∑j=13a1ja2j∑j=13a2ja1j∑j=13a2j2]\begin{aligned} AA^\top &= \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \end{bmatrix} \begin{bmatrix} a_{11} & a_{21} \\ a_{12} & a_{22} \\ a_{13} & a_{23} \end{bmatrix} \\ &= \begin{bmatrix} \sum_{j=1}^{3}a_{1j}^2 & \sum_{j=1}^{3}a_{1j}a_{2j} \\ \sum_{j=1}^{3}a_{2j}a_{1j} & \sum_{j=1}^{3}a_{2j}^2 \end{bmatrix} \end{aligned}$

$AA⊤AA^\top$ 是一个 $\times 2$ 的对称方阵。

对于 $A⊤AA^\top A$ 这个 $\times 3$ 的对称矩阵，它具有三个正交的特征向量，这些特征向量被称为矩阵 $A$ 的右奇异向量；而 $AA⊤AA^\top$ 这个 $\times 2$ 的对称矩阵，具有两个正交的特征向量，被称为矩阵 $A$ 的左奇异向量。这两组对称矩阵的非零特征值的平方根，就是矩阵 $A$ 的奇异值。这些奇异值将构成奇异值矩阵 $Σ\Sigma$ 的对角线元素， $Σ\Sigma$ 的维度与原始矩阵 $A$ 相同，其对角线上的元素按从大到小的顺序排列，其余位置的元素均为 $0$ 。通过这种方式，我们成功地从非对称矩阵 $A$ 构造出了与奇异值分解密切相关的对称矩阵和奇异值，为后续实现矩阵的奇异值分解提供了关键的中间步骤。

四、奇异值分解的主要内容：三矩阵分解的数学与可视化

（一）分解公式与矩阵性质

奇异值分解的主要内容是，对于任意一个 $\times n$ 的矩阵 $A$ ，都可以分解为三个矩阵的乘积，即 $U_{m \times m} \Sigma_{m \times n} V_{n \times n}^\top$ 。在这个分解中：

正交矩阵 $U$ （左奇异向量矩阵）：

$U$ 是一个 $\times m$ 的正交矩阵，满足 $U⊤U=ImU^\top U = I_m$ ，其中 $I_m$ 是 $m$ 阶单位矩阵。其列向量是矩阵 $AA⊤AA^\top$ 的单位化特征向量，这些列向量被称为矩阵 $A$ 的左奇异向量。左奇异向量构成了 $m$ 维空间中的一组正交基，它们在矩阵 $A$ 所表示的线性变换中，起到了确定变换方向的作用。例如，在图像处理中，左奇异向量可以对应于图像的主要特征方向，通过对这些方向的分析，可以提取图像的关键信息。
对角矩阵 $Σ\Sigma$ （奇异值矩阵）：

$Σ\Sigma$ 是一个 $\times n$ 的对角矩阵，其对角线上的元素 $σi\sigma_i$ （ $\cdots, \min(m, n)$ ）为矩阵 $A$ 的奇异值，并且这些奇异值通常按从大到小的顺序排列，即 $σ1≥σ2≥⋯≥σmin⁡(m,n)≥0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_{\min(m, n)} \geq 0$ ，其余位置的元素均为 $0$ 。奇异值反映了矩阵 $A$ 在各个方向上的 “能量” 分布，较大的奇异值对应于矩阵 $A$ 中更重要的特征或信息。例如，在数据降维中，我们可以通过保留较大的奇异值及其对应的奇异向量，来实现对数据的有效压缩和特征提取，而忽略较小的奇异值所对应的信息，因为这些信息可能包含噪声或对整体特征影响较小。
正交矩阵 $V$ （右奇异向量矩阵）：

$V$ 是一个 $\times n$ 的正交矩阵，满足 $V⊤V=InV^\top V = I_n$ ，其中 $I_n$ 是 $n$ 阶单位矩阵。其列向量是矩阵 $A⊤AA^\top A$ 的单位化特征向量，这些列向量被称为矩阵 $A$ 的右奇异向量。右奇异向量构成了 $n$ 维空间中的一组正交基，它们与左奇异向量相互关联，共同决定了矩阵 $A$ 的奇异值分解形式。在实际应用中，右奇异向量可以用于对原始数据进行预处理或变换，以便更好地分析和处理数据。例如，在文本挖掘中，右奇异向量可以用于对文本特征进行转换，使得文本数据在新的坐标系下更易于分析和理解。

（二）线性变换的可视化拆解

以从三维空间到二维空间的线性变换为例，奇异值分解将这个复杂的变换巧妙地分解为三个清晰的步骤，每个步骤都对应着特定的几何操作，这种分解方式使得我们能够直观地理解矩阵变换的本质。

右奇异向量旋转（ $V⊤V^\top$ ）：

第一步，矩阵 $V⊤V^\top$ 对三维空间中的单位球面进行旋转操作。由于 $V$ 是正交矩阵，其列向量（即右奇异向量）构成了三维空间的一组正交基。在这一步中， $V⊤V^\top$ 将这些右奇异向量旋转至与标准基（ $x$ 轴、 $y$ 轴、 $z$ 轴方向的单位向量）对齐。具体来说，对应最大奇异值的右奇异向量会旋转到 $x$ 轴方向，对应第二大奇异值的右奇异向量会旋转到 $y$ 轴方向，以此类推。这个旋转过程实际上是将原始空间中的数据重新排列，使得数据的主要成分与标准基的方向一致，为后续的缩放操作做好准备。例如，在一个包含多个向量的数据集上，通过 $V⊤V^\top$ 的旋转，可以将数据中变化最大的方向与 $x$ 轴对齐，变化次大的方向与 $y$ 轴对齐，这样在后续的分析中，我们就可以更方便地观察和处理数据在这些主要方向上的特征。
奇异值缩放与维度消除（ $Σ\Sigma$ ）：

经过旋转后，中间的 $Σ\Sigma$ 矩阵开始发挥作用。 $Σ\Sigma$ 矩阵本质上是一个由奇异值构成的对角矩阵，同时它还包含了维度消除的功能。在这一步中，首先根据奇异值的大小对前两个维度（因为是从三维到二维的变换）进行缩放。由于奇异值按从大到小排列，较大的奇异值会使对应的维度在缩放过程中被拉伸得更多，较小的奇异值则拉伸得较少。这意味着数据在不同方向上的变化幅度得到了体现，较大奇异值对应的方向上的数据变化更为显著，而较小奇异值对应的方向上的数据变化相对较小。例如，在图像压缩中，较大的奇异值对应于图像中主要的结构和特征信息，通过对这些方向的适当缩放，可以在保留主要特征的同时，对图像进行有效的压缩。同时，由于 $Σ\Sigma$ 是一个 $\times 3$ 的矩阵（对应从三维到二维的变换），它会消除第三个维度，即将三维空间中的球体变为二维空间中的椭圆。这一过程相当于对数据进行了降维处理，去除了相对不重要的维度信息，只保留了与二维空间相关的主要信息。
左奇异向量旋转（ $U$ ）：

最后一步，矩阵 $U$ 对经过缩放和降维后的椭圆进行再次旋转。 $U$ 也是正交矩阵，其列向量（左奇异向量）构成了二维空间的一组正交基。 $U$ 的作用是将标准基旋转至与左奇异向量对齐，也就是将上一步得到的椭圆旋转到目标空间中的最终位置。经过这一步旋转，椭圆在二维空间中的方向和位置被确定下来，完成了从三维空间到二维空间的线性变换。例如，在一个实际的数据分析场景中，通过 $U$ 的旋转，可以将经过处理的数据映射到特定的坐标系中，以便更好地进行可视化展示或进一步的分析处理。

通过这三个步骤的组合，奇异值分解将一个复杂的从三维空间到二维空间的线性变换，分解为了一系列简单的、易于理解的几何操作，即 “旋转→缩放→旋转” 的组合。这种分解方式不仅适用于三维到二维的变换，对于任意维度之间的线性变换都具有普遍的意义。即使在高维空间中，我们也可以通过奇异值和奇异向量来捕捉线性变换的主要成分方向和幅度，从而更深入地理解和分析矩阵所代表的线性变换的本质。

五、拓展思考：奇异值分解的多元解读与应用价值

（一）不同视角下的 SVD 意义

奇异值分解（SVD）除了前文所阐述的可视化解读方式，还存在另一种在数学和实际应用中都具有重要意义的解读视角，即将其视为 “秩 - 1 矩阵之和”。从数学原理上看，任意一个 $\times n$ 的矩阵 $A$ 都可以表示为一系列秩为 $1$ 的矩阵的线性组合，其数学表达式为 $\sum_{i = 1}^{r} \sigma_i \vec{u}_i \vec{v}_i^T$ ，其中 $r$ 是矩阵 $A$ 的秩， $σi\sigma_i$ 是矩阵 $A$ 的奇异值， $u⃗i\vec{u}_i$ 和 $v⃗i\vec{v}_i$ 分别是对应的左奇异向量和右奇异向量。这种表示形式本质上是将矩阵 $A$ 分解成了若干个秩为 $1$ 的矩阵（外积形式 $u⃗iv⃗iT\vec{u}_i \vec{v}_i^T$ ）的和，而奇异值 $σi\sigma_i$ 则充当了这些秩为 $1$ 的矩阵在组合中的系数。

这种解读方式在低秩近似领域有着极为重要的应用。以图像压缩为例，在数字化图像中，图像可以被看作是一个由像素值构成的巨大矩阵。假设原始图像矩阵为 $A$ ，通过奇异值分解得到奇异值 $σ1≥σ2≥⋯≥σr\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r$ 以及对应的左、右奇异向量。由于奇异值的大小反映了矩阵在各个方向上的 “能量” 分布，较大的奇异值对应着图像中更重要的结构和特征信息，而较小的奇异值则往往对应着图像中的细节、噪声或对整体视觉效果影响较小的部分。

在图像压缩过程中，我们可以通过保留前 $k$ （ $\lt r$ ）个最大奇异值对应的分量，而忽略其余较小奇异值对应的分量，来实现对图像矩阵的低秩近似。即近似后的图像矩阵 $Ak=∑i=1kσiu⃗iv⃗iTA_k = \sum_{i = 1}^{k} \sigma_i \vec{u}_i \vec{v}_i^T$ ，这样得到的 $A_k$ 是一个秩为 $k$ 的矩阵，相比于原始的高秩图像矩阵 $A$ ，它在保留了图像主要特征的同时，大大减少了数据量，从而实现了图像的压缩。通过这种方式，我们能够在存储空间和传输带宽受限的情况下，有效地存储和传输图像，同时在一定程度上保持图像的视觉质量。例如，在互联网图像传输、图像数据库存储等场景中，这种基于 SVD 的低秩近似图像压缩方法得到了广泛的应用。

（二）从理论到实践的桥梁作用

SVD 的普适性使其成为连接线性代数理论与实际应用的关键纽带，在众多领域中发挥着不可替代的作用。

在数据科学领域，SVD 是许多核心算法的基础。主成分分析（PCA）作为一种常用的数据降维与特征提取技术，其核心原理就依赖于 SVD 。在 PCA 中，我们通过对数据矩阵进行 SVD 分解，将高维数据投影到由最大奇异值对应的奇异向量所张成的低维子空间中，从而实现数据的降维，同时最大限度地保留数据的方差和主要特征。这种降维操作不仅可以减少数据处理的复杂度，还能有效地去除数据中的噪声和冗余信息，提高后续数据分析和建模的效率和准确性。例如，在图像识别中，通过 PCA 和 SVD 对图像数据进行降维处理，可以快速提取图像的主要特征，降低计算量，从而提高图像分类和识别的速度和精度。

推荐系统也是 SVD 的重要应用领域之一。在基于用户 - 物品评分矩阵的推荐系统中，我们可以利用 SVD 将这个稀疏的评分矩阵分解为三个矩阵的乘积，从而挖掘用户和物品之间的潜在关系。通过对左奇异向量和右奇异向量的分析，我们可以找到具有相似兴趣爱好的用户群体以及具有相似特征的物品集合，进而为用户提供个性化的推荐服务。例如，在电商平台的商品推荐中，通过 SVD 分析用户的购买历史和商品的属性信息，能够精准地向用户推荐他们可能感兴趣的商品，提高用户的购买转化率和满意度。

在信号处理中，SVD 可用于噪声过滤。假设接收到的信号受到噪声污染，我们可以将信号表示为矩阵形式，通过 SVD 分解，将信号中的噪声和有用信号分离。由于噪声通常对应着较小的奇异值，我们可以通过设置阈值，将较小奇异值对应的部分去除，然后利用剩下的主要奇异值和奇异向量重构信号，从而达到去除噪声的目的。例如，在音频信号处理中，通过 SVD 降噪可以有效地去除音频中的杂音，提高音频的质量。

在机器学习中，SVD 作为矩阵分解的基础工具，帮助处理高维数据的特征提取与降维。当面对大规模的高维数据集时，直接进行分析和建模往往面临计算复杂度高、内存需求大以及容易出现过拟合等问题。SVD 通过将高维数据矩阵分解为低维的奇异向量和奇异值表示，能够有效地提取数据的关键特征，降低数据维度，为后续的机器学习算法（如分类、回归、聚类等）提供更简洁、有效的数据表示。例如，在文本分类任务中，通过对文本特征矩阵进行 SVD 处理，可以将高维的文本向量空间转换为低维的语义空间，在保留文本主要语义信息的同时，减少特征数量，提高分类算法的性能。

SVD 的价值不仅在于其数学上的完美性，更在于它为解决各种复杂的实际问题提供了一种可解释、可操作的解决方案。它使得我们能够将抽象的数学理论应用到具体的工程实践中，为数据分析、机器学习、信号处理等领域的发展提供了强大的支持。

六、结语：理解 SVD 的双重维度

奇异值分解作为线性代数领域的关键理论，以其独特的数学形式将线性变换的复杂过程拆解为直观的空间操作，搭建起了理论与应用之间的桥梁。它不仅是对线性代数关键概念的高度凝练，更是解决数据科学中高维数据难题的有力武器。通过将矩阵分解为正交矩阵与对角矩阵的乘积，SVD 揭示了矩阵的内在结构，让我们能够从数学和几何的双重角度洞察线性变换的本质。

在实际应用中，SVD 的价值体现在多个方面。从图像压缩到推荐系统，从信号处理到机器学习，SVD 为解决复杂的现实问题提供了高效的解决方案。它能够提取数据的关键特征，实现数据的降维与去噪，从而提高算法的效率和准确性。掌握 SVD 的核心要义，不仅有助于我们在学术研究中深入理解线性代数的精髓，更能在实际工作中灵活运用这一强大工具，为解决复杂的数据问题提供有力支持。