当前位置：首页 > news >正文

Householder变换：线性代数中的镜像反射器

news 2025/10/27 8:11:13

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 引言：什么是Householder变换？

Householder变换（Householder transformation）又称为初等反射变换（Elementary reflection）或豪斯霍尔德变换，是线性代数中一种基本而强大的正交变换 🎯。这种变换以美国数学家Alston Scott Householder（1904-1993）的名字命名，尽管历史记录显示苏格兰数学家A.C. Aitken在1932年就已率先提出了这一概念。Householder在1958年强调了该变换在数值线性代数中的重要意义，从而使其成为矩阵计算和数值分析中不可或缺的工具。

从几何角度看，Householder变换描述了一种镜像反射操作——它可以将任意向量关于某个经过原点的超平面进行反射，这个超平面由其法向量确定。这种直观的几何解释与其简洁的代数表示相结合，使得Householder变换在矩阵分解、线性方程组求解和特征值计算等众多领域中有着广泛应用。

与Givens旋转相比，Householder变换具有一次变换可以零化多个矩阵元素的优点，这使得它在许多实际计算中更加高效。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！
往期文章推荐:

20.截断奇异值分解（Truncated SVD）详解：原理、应用与Python实践
19.线性代数中的特征向量：矩阵的“DNA方向“
18.奇异值分解(SVD)：数据科学的“瑞士军刀“
17.CLIP模型全解析：从对比学习到零样本识别的革命
16.XLM-R模型：大规模跨语言表示的突破与实践
15.GELU（高斯误差线性单元）激活函数全面解析
14.神经网络中的随机高斯初始化技术
13.Metropolis接受准则：随机模拟与优化中的关键基石
12.Rademacher复杂度：衡量机器学习模型复杂度的利器
11.对称树结构：原理、应用与Python实现
10.Huber损失函数：稳健回归的智慧之选
9.拟合优度：模型与数据的契合之度
8.Hoeffding树：数据流挖掘中的高效分类算法详解
7.独热编码：分类数据处理的基石技术
6.加权分位数直方图：提升机器学习效能的关键技术
5.Kolmogorov-Smirnov检验：从理论到实践的全解读
4.CSC格式：稀疏矩阵的列式压缩存储指南
3.机器学习特征筛选中的IV值详解：原理、应用与实现
2.群体稳定性指标PSI：机器学习模型稳定性评估的核心工具
1.Lift Chart分析：评估分类模型性能的实用工具

2 Householder变换的几何直观与数学定义

2.1 几何直观：镜子中的反射

Householder变换有一个非常直观的几何解释 🔍。在三维空间中，想象一个由法向量 $u\mathbf{u}$ 确定的平面镜子。对于任意向量 $x\mathbf{x}$ ，Householder变换将其映射为关于这个镜平面的镜像向量 $y\mathbf{y}$ 。

更一般地，在n维空间中，给定一个单位向量 $u\mathbf{u}$ （ $∣u∣2=1\ | \mathbf{u}\ | _2 = 1$ ），Householder变换定义了关于以 $u\mathbf{u}$ 为法向量的超平面的一种反射变换。这个超平面由所有满足 $u⊤x=0\mathbf{u}^\top \mathbf{x} = 0$ 的向量 $x\mathbf{x}$ 组成，即所有与 $u\mathbf{u}$ 正交的向量构成的子空间。

2.2 数学定义与矩阵表示

Householder变换的矩阵形式异常简洁而优美。给定非零向量 $u\mathbf{u}$ ，对应的Householder矩阵定义为：

$2\mathbf{u}\mathbf{u}^\top$

其中 $I$ 是单位矩阵。

当 $u\mathbf{u}$ 是单位向量时（即 $∣u∣2=1\ | \mathbf{u}\ | _2 = 1$ ），这个矩阵具有深刻的几何意义：它表示关于以 $u\mathbf{u}$ 为法向量的超平面的反射。

如果需要将向量 $x\mathbf{x}$ 反射为与特定向量 $y\mathbf{y}$ 同方向，且保持长度不变（即 $∣Hx∣2=∣x∣2\ | H\mathbf{x}\ | _2 = \ | \mathbf{x}\ | _2$ ），我们可以通过选择适当的 $u\mathbf{u}$ 来实现。常用的构造方法是给定向量 $x\mathbf{x}$ ，我们希望找到Householder变换使其映射到基向量 $e1\mathbf{e}_1$ 的倍数：

$u=x−αe1∣x−αe1∣2,α=±∣x∣2\mathbf{u} = \frac{\mathbf{x} - \alpha\mathbf{e}_1}{\ | \mathbf{x} - \alpha\mathbf{e}_1\ | _2}, \quad \alpha = \pm\ | \mathbf{x}\ | _2$

这种选择可以确保 $Hx=αe1H\mathbf{x} = \alpha\mathbf{e}_1$ ，即通过一次变换将向量 $x\mathbf{x}$ 的所有非第一个分量零化。在实际数值计算中，通常选择 $α=−sign(x1)∣x∣2\alpha = -\text{sign}(x_1)\ | \mathbf{x}\ | _2$ 以避免数值不稳定。

3 Householder变换的数学性质

3.1 基本性质

Householder矩阵具有几个非常重要的数学性质，这些性质使得它在数值计算中特别有用：

对称性： $H⊤=HH^\top = H$
正交性： $H⊤H=IH^\top H = I$ ，即 $H−1=H⊤=HH^{-1} = H^\top = H$
对合性： $H^2 = I$ ，即应用两次相同的Householder变换会回到原始向量
行列式： $det⁡(H)=−1\det(H) = -1$
保范性： $∣Hx∣2=∣x∣2\ | H\mathbf{x}\ | _2 = \ | \mathbf{x}\ | _2$ ，保持向量长度不变

这些性质中，正交性和保范性尤为重要，因为它们保证了Householder变换在数值计算中不会放大误差，从而具有良好的数值稳定性。

3.2 反射性质证明

Householder变换的反射性质可以从其定义直接推导。对于任意向量 $x\mathbf{x}$ ，我们有：

$Hx=(I−2uu⊤)x=x−2u(u⊤x)H\mathbf{x} = (I - 2\mathbf{u}\mathbf{u}^\top)\mathbf{x} = \mathbf{x} - 2\mathbf{u}(\mathbf{u}^\top\mathbf{x})$

注意到 $u⊤x\mathbf{u}^\top\mathbf{x}$ 是一个标量，表示 $x\mathbf{x}$ 在 $u\mathbf{u}$ 方向上的投影长度。因此， $x−2u(u⊤x)\mathbf{x} - 2\mathbf{u}(\mathbf{u}^\top\mathbf{x})$ 恰好是 $x\mathbf{x}$ 关于以 $u\mathbf{u}$ 为法向量的超平面的镜像点。

特别地，对于与 $u\mathbf{u}$ 平行的向量 $x=cu\mathbf{x} = c\mathbf{u}$ ，有：

$H(cu)=cu−2u(u⊤cu)=cu−2cu=−cuH(c\mathbf{u}) = c\mathbf{u} - 2\mathbf{u}(\mathbf{u}^\top c\mathbf{u}) = c\mathbf{u} - 2c\mathbf{u} = -c\mathbf{u}$

而对于与 $u\mathbf{u}$ 正交的向量 $x\mathbf{x}$ （即 $u⊤x=0\mathbf{u}^\top\mathbf{x} = 0$ ），则有：

$Hx=x−2u(0)=xH\mathbf{x} = \mathbf{x} - 2\mathbf{u}(0) = \mathbf{x}$

这验证了 $H$ 确实表示关于以 $u\mathbf{u}$ 为法向量的超平面的反射变换。

4 Householder变换的算法实现

4.1 数值稳定的算法设计

在实际数值计算中，算法的数值稳定性至关重要。Dubrulle在2000年提出了生成一般稀疏向量的数值稳定Householder变换算法。以下是计算Householder向量的标准数值稳定算法：

给定向量 $x\mathbf{x}$ ，我们希望计算Householder向量 $u\mathbf{u}$ 和标量 $β\beta$ ，使得 $Hx=σe1H\mathbf{x} = \sigma\mathbf{e}_1$ ，其中$ | \sigma | = \ | \mathbf{x}\ | _2$。

算法步骤：

计算 $σ=−sign(x1)∣x∣2\sigma = -\text{sign}(x_1)\ | \mathbf{x}\ | _2$
令 $u=x\mathbf{u} = \mathbf{x}$
更新 $u1=u1−σu_1 = u_1 - \sigma$
计算 $β=2u⊤u=2∣u∣22\beta = \frac{2}{\mathbf{u}^\top\mathbf{u}} = \frac{2}{\ | \mathbf{u}\ | _2^2}$
返回 $u\mathbf{u}$ 和 $β\beta$

这里使用 $sign(x1)\text{sign}(x_1)$ 并取负号是为了避免抵消现象，增强数值稳定性。如果 $x_1$ 是正数，则 $x1−σx_1 - \sigma$ 是两个相近正数的减法，可能导致有效数字位数的损失。

5 Householder变换在QR分解中的应用

5.1 QR分解的Householder算法

QR分解是将矩阵分解为正交矩阵 $Q$ 和上三角矩阵 $R$ 乘积的过程，即 $A = QR$ 。使用Householder变换进行QR分解是目前数值稳定性最好的方法之一。

算法的基本思想是通过一系列Householder变换 $H1,H2,…,HnH_1, H_2, \ldots, H_n$ ，逐步将矩阵 $A$ 化为上三角形式：

$Hn⋯H2H1A=RH_n \cdots H_2 H_1 A = R$

由于每个 $H_i$ 都是正交矩阵，它们的乘积也是正交矩阵，因此我们有：

$(H_1 H_2 \cdots H_n) R = QR$

其中 $H_1 H_2 \cdots H_n$ 是正交矩阵。

5.2 QR分解的逐步过程

设 $A$ 是 $\times n$ 矩阵（ $\geq n$ ）。QR分解的Householder算法步骤如下：

第一步：令 $a1\mathbf{a}_1$ 表示 $A$ 的第一列。构造Householder变换 $H_1$ 使得 $H1a1=r11e1H_1\mathbf{a}_1 = r_{11}\mathbf{e}_1$ 。则：

$H1A=[r11∗⋯∗0⋮B10]H_1A = \begin{bmatrix} r_{11} & * & \cdots & * \\ 0 & & & \\ \vdots & & B_1 & \\ 0 & & & \end{bmatrix}$
第二步：对子矩阵 $B_1$ 的第一列（即原矩阵 $A$ 的第二列去掉第一个元素）应用Householder变换 $H^2\widehat{H}_2$ ，并令 $H2=diag(1,H^2)H_2 = \text{diag}(1, \widehat{H}_2)$ 。则：

$H2H1A=[r11r12∗⋯∗0r22∗⋯∗00⋮⋮C200]H_2H_1A = \begin{bmatrix} r_{11} & r_{12} & * & \cdots & * \\ 0 & r_{22} & * & \cdots & * \\ 0 & 0 & & & \\ \vdots & \vdots & & C_2 & \\ 0 & 0 & & & \end{bmatrix}$
继续此过程：经过 $n$ 步（对于列满秩矩阵）后，我们得到上三角矩阵 $H_n \cdots H_1 A$ 。
重构Q：正交矩阵 $H_1 H_2 \cdots H_n$ 。