线性代数 - 理解 特征方程 Eigenvalue Equation定义的合理性
线性代数 - 理解 特征方程 Eigenvalue Equation定义的合理性
flyfish
名字:特征方程(或本征方程、本征值方程)、Eigenvalue Equation(或 Eigen Equation)。
Ax⃗=λx⃗A\vec{x} = \lambda \vec{x}Ax=λx 这个公式本身是“Eigenvalue Equation”。
det(A−λI)=0\det(A - \lambda I) = 0det(A−λI)=0 叫“Characteristic Equation”(特征方程)。
1. 刻画“线性变换的特殊行为”
线性变换(矩阵 AAA)对大多数向量会同时进行旋转、拉伸、剪切等复杂操作,但存在特殊向量:经 AAA 变换后,仅发生“伸缩”(或反向伸缩),方向保持不变。
例如,对“关于y轴的反射矩阵” A=(−1001)A = \begin{pmatrix} -1 & 0 \\ 0 & 1 \end{pmatrix}A=(−1001),y轴方向的向量 x⃗=(01)\vec{x} = \begin{pmatrix} 0 \\ 1 \end{pmatrix}x=(01) 变换后仍为 (01)\begin{pmatrix} 0 \\ 1 \end{pmatrix}(01)(伸缩比例λ=1\lambda=1λ=1);x轴方向的向量 x⃗=(10)\vec{x} = \begin{pmatrix} 1 \\ 0 \end{pmatrix}x=(10) 变换后为 (−10)\begin{pmatrix} -1 \\ 0 \end{pmatrix}(−10)(伸缩比例λ=−1\lambda=-1λ=−1,反向伸缩)。
定义 Ax⃗=λx⃗A\vec{x} = \lambda \vec{x}Ax=λx 就是为了精准捕捉这类“方向不变、仅伸缩”的特殊向量(特征向量x⃗\vec{x}x)和伸缩比例(特征值λ\lambdaλ)。
2. 为“矩阵对角化”与简化运算奠基
若一个矩阵 AAA 能找到一组特征向量作为基,则在这组基下,AAA 会转化为对角矩阵(对角线上的元素就是特征值)。
对角矩阵的运算(幂运算、求逆、分解等)极其简便。例如,若 A=PΛP−1A = P\Lambda P^{-1}A=PΛP−1(Λ\LambdaΛ 是对角矩阵,PPP 是特征向量组成的矩阵),则 Ak=PΛkP−1A^k = P\Lambda^k P^{-1}Ak=PΛkP−1,大幅简化了高次幂的计算。
这种“对角化”在微分方程求解(如解线性常系数微分方程组)、数据降维(如主成分分析PCA)等领域具有应用价值,而 Ax⃗=λx⃗A\vec{x} = \lambda \vec{x}Ax=λx 的定义是对角化的理论起点。
3. 连接“几何直观”与“代数计算”
几何直观:Ax⃗=λx⃗A\vec{x} = \lambda \vec{x}Ax=λx 直观体现了“变换后向量与原向量共线”的几何特征,把抽象的线性变换具象为“沿特定方向的伸缩操作”。
代数计算:将 Ax⃗=λx⃗A\vec{x} = \lambda \vec{x}Ax=λx 变形为 (A−λI)x⃗=0⃗(A - \lambda I)\vec{x} = \vec{0}(A−λI)x=0,根据“齐次线性方程组有非零解的充要条件是系数矩阵行列式为0”,可得特征方程 ∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0。这就把“找特征值”转化为解代数方程,让计算有了明确的路径(先解特征方程得λ\lambdaλ,再代入求特征向量x⃗\vec{x}x)。
对角矩阵
先明确核心符号: Λ \Lambda Λ(Lambda)的含义
Λ\LambdaΛ 是希腊字母,在这里表示 对角矩阵(对角线元素非零、其余元素全为0的矩阵),且其 对角线上的元素恰好是矩阵 AAA 的所有特征值。
形式示例:若矩阵 AAA 的特征值为 λ1,λ2,...,λn\lambda_1, \lambda_2, ..., \lambda_nλ1,λ2,...,λn,则:
Λ=(λ10…00λ2…0⋮⋮⋱⋮00…λn)\Lambda = \begin{pmatrix} \lambda_1 & 0 & \dots & 0 \\ 0 & \lambda_2 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \lambda_n \end{pmatrix} Λ=λ10⋮00λ2⋮0……⋱…00⋮λn
结合之前的例子:若 A=(−1001)A = \begin{pmatrix} -1 & 0 \\ 0 & 1 \end{pmatrix}A=(−1001)(特征值 λ1=1,λ2=−1\lambda_1=1, \lambda_2=-1λ1=1,λ2=−1),则对应的 Λ=(100−1)\Lambda = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}Λ=(100−1)。
A = P Λ P − 1 A = P\Lambda P^{-1} A=PΛP−1 :矩阵的“对角化分解”
这个等式是 可对角化矩阵 的核心分解形式,拆解如下:
- PPP:由矩阵 AAA 的 n个线性无关的特征向量 作为列向量组成的可逆矩阵(n是A的阶数);
- Λ\LambdaΛ:如上所述,是A的特征值构成的对角矩阵;
- P−1P^{-1}P−1:矩阵 PPP 的逆矩阵(因P可逆,逆矩阵存在)。
通过特征向量矩阵 PPP 和特征值对角矩阵 Λ\LambdaΛ,可将复杂的矩阵 AAA 分解为“P×Λ×P−1P \times \Lambda \times P^{-1}P×Λ×P−1”的形式,核心目的是 简化A的高次幂计算。
为什么 A k = P Λ k P − 1 A^k = P\Lambda^k P^{-1} Ak=PΛkP−1 能简化高次幂计算?
关键在于 对角矩阵 Λ\LambdaΛ 的高次幂计算极其简单,而普通矩阵的高次幂计算复杂(需多次矩阵乘法),具体对比和示例如下:
1. 对角矩阵 Λ \Lambda Λ 的高次幂规则
对角矩阵的k次幂(k为正整数),只需将 对角线上的每个特征值各自取k次幂,非对角线元素仍为0:
Λk=(λ1k0…00λ2k…0⋮⋮⋱⋮00…λnk)\Lambda^k = \begin{pmatrix} \lambda_1^k & 0 & \dots & 0 \\ 0 & \lambda_2^k & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \lambda_n^k \end{pmatrix} Λk=λ1k0⋮00λ2k⋮0……⋱…00⋮λnk
示例:若 Λ=(100−1)\Lambda = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}Λ=(100−1),则 Λ2=(1200(−1)2)=(1001)\Lambda^2 = \begin{pmatrix} 1^2 & 0 \\ 0 & (-1)^2 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}Λ2=(1200(−1)2)=(1001),Λ3=(1300(−1)3)=(100−1)\Lambda^3 = \begin{pmatrix} 1^3 & 0 \\ 0 & (-1)^3 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}Λ3=(1300(−1)3)=(100−1),计算无需矩阵乘法,直接对特征值取幂即可。
2. 普通矩阵 A A A 高次幂的“简化逻辑”
以 k=2k=2k=2 为例,验证 A2=PΛ2P−1A^2 = P\Lambda^2 P^{-1}A2=PΛ2P−1:
A2=A×A=(PΛP−1)×(PΛP−1)A^2 = A \times A = (P\Lambda P^{-1}) \times (P\Lambda P^{-1}) A2=A×A=(PΛP−1)×(PΛP−1)
根据矩阵乘法的结合律,先计算中间的 P−1×PP^{-1} \times PP−1×P(逆矩阵与原矩阵相乘得单位矩阵 III):
A2=PΛ(P−1P)ΛP−1=PΛIΛP−1=PΛ2P−1A^2 = P\Lambda (P^{-1}P) \Lambda P^{-1} = P\Lambda I \Lambda P^{-1} = P\Lambda^2 P^{-1} A2=PΛ(P−1P)ΛP−1=PΛIΛP−1=PΛ2P−1
同理,k=3k=3k=3 时:A3=A2×A=(PΛ2P−1)×(PΛP−1)=PΛ3P−1A^3 = A^2 \times A = (P\Lambda^2 P^{-1}) \times (P\Lambda P^{-1}) = P\Lambda^3 P^{-1}A3=A2×A=(PΛ2P−1)×(PΛP−1)=PΛ3P−1,以此类推,可推广到任意正整数k,即 Ak=PΛkP−1A^k = P\Lambda^k P^{-1}Ak=PΛkP−1。
3. 直观对比:简化前后的计算难度
以矩阵 A=(3−210)A = \begin{pmatrix} 3 & -2 \\ 1 & 0 \end{pmatrix}A=(31−20) 为例(特征值 λ1=2,λ2=1\lambda_1=2, \lambda_2=1λ1=2,λ2=1,特征向量矩阵 P=(2111)P = \begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}P=(2111),P−1=(1−1−12)P^{-1} = \begin{pmatrix} 1 & -1 \\ -1 & 2 \end{pmatrix}P−1=(1−1−12),Λ=(2001)\Lambda = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}Λ=(2001)):
直接算 A3A^3A3:需先算 A2=A×A=(7−63−2)A^2 = A \times A = \begin{pmatrix} 7 & -6 \\ 3 & -2 \end{pmatrix}A2=A×A=(73−6−2),再算 A3=A2×A=(15−147−6)A^3 = A^2 \times A = \begin{pmatrix} 15 & -14 \\ 7 & -6 \end{pmatrix}A3=A2×A=(157−14−6),两次矩阵乘法,计算繁琐;
用分解式算 A3A^3A3:先算 Λ3=(230013)=(8001)\Lambda^3 = \begin{pmatrix} 2^3 & 0 \\ 0 & 1^3 \end{pmatrix} = \begin{pmatrix} 8 & 0 \\ 0 & 1 \end{pmatrix}Λ3=(230013)=(8001),再算 PΛ3P−1=(2111)×(8001)×(1−1−12)=(15−147−6)P\Lambda^3 P^{-1} = \begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix} \times \begin{pmatrix} 8 & 0 \\ 0 & 1 \end{pmatrix} \times \begin{pmatrix} 1 & -1 \\ -1 & 2 \end{pmatrix} = \begin{pmatrix} 15 & -14 \\ 7 & -6 \end{pmatrix}PΛ3P−1=(2111)×(8001)×(1−1−12)=(157−14−6),仅需1次对角矩阵取幂+2次矩阵乘法,且对角矩阵取幂无计算成本。
