神经网络之矩阵可逆
1️⃣ 定义
对于一个 (n×n)( n \times n )(n×n) 方阵 (A)(A)(A),如果存在同样大小的矩阵 (B)(B)(B) 满足:
AB=BA=In AB = BA = I_n AB=BA=In
其中 (In)(I_n)(In) 是单位矩阵(对角线为1,其余为0),则称:
- (A)(A)(A) 可逆(Invertible/Nonsingular)(Invertible / Nonsingular)(Invertible/Nonsingular)
- (B=A−1)(B = A^{-1})(B=A−1) 为 (A)(A)(A) 的逆矩阵
简单理解:可逆矩阵就是“可以被反转”的矩阵,类似于数的倒数。
2️⃣ 判断矩阵可逆的条件
对于 (n \times n) 方阵 (A),以下条件等价:
| 条件 | 含义 |
|---|---|
| 存在(A−1)(A^{-1})(A−1) | 定义上的可逆性 |
| (det(A)≠0)(\det(A) \neq 0)(det(A)=0) | 行列式不为零 |
| rank(A)=nrank(A) = nrank(A)=n | 秩满秩 |
| 列(或行)向量线性无关 | 没有冗余方向 |
| 对任意 (b⃗)(\vec{b})(b),方程 (Ax⃗=b⃗)(A \vec{x} = \vec{b})(Ax=b) 有唯一解 | 线性映射一一对应 |
| 空间变换体积不为0 | 几何意义 |
总结一句话:可逆 ⇔ 满秩 ⇔ 列向量线性无关 ⇔ 行列式不为0
3️⃣ 直观几何理解
把矩阵 (A)(A)(A) 看作对空间的变换:
- 可逆:空间被拉伸、旋转或翻转,但不压扁 → 每个点都能唯一回到原位置
- 不可逆:空间被压缩到低维(如3D压到平面) → 信息丢失,无法恢复
行列式 (\det(A)) 就表示体积缩放比例:
det(A)=0⇒空间塌缩⇒不可逆
\det(A) = 0 \Rightarrow 空间塌缩 \Rightarrow 不可逆
det(A)=0⇒空间塌缩⇒不可逆
4️⃣ 示例
✅ 可逆矩阵
A=[12 34],det(A)=−2≠0
A = \begin{bmatrix} 1 & 2 \ 3 & 4 \end{bmatrix}, \quad \det(A) = -2 \neq 0
A=[12 34],det(A)=−2=0
逆矩阵:
A−1=1−2[4−2 −31]
A^{-1} = \frac{1}{-2} \begin{bmatrix} 4 & -2 \ -3 & 1 \end{bmatrix}
A−1=−21[4−2 −31]
❌ 不可逆矩阵
B=[12 24],det(B)=0
B = \begin{bmatrix} 1 & 2 \ 2 & 4 \end{bmatrix}, \quad \det(B) = 0
B=[12 24],det(B)=0
第二列是第一列的 2 倍 → 线性相关 → 不可逆
5️⃣ 与线性相关的关系
- 可逆矩阵 ⇔ 列向量线性无关
- 不可逆矩阵 ⇔ 列向量线性相关
直观理解:可逆矩阵每一列都提供了“新的方向”,没有冗余。
6️⃣ 应用场景
-
线性方程组
- 可逆矩阵 → 方程组 (Ax⃗=b⃗)(A \vec{x} = \vec{b})(Ax=b) 有唯一解
- 不可逆 → 无解或无穷多解
-
线性变换与空间映射
- 可逆矩阵 → 变换可逆(旋转、缩放)
- 不可逆 → 空间被压扁,信息丢失
-
信号处理
- 可逆矩阵用于编码、解码
- 不可逆 → 无法恢复原信号
-
机器学习 / 数据分析
- 协方差矩阵、特征矩阵可逆 → 模型稳定可解
- 不可逆 → 存在线性冗余或多重共线性
✅ 总结一句话
方阵可逆意味着列向量线性无关、秩满秩、行列式不为零,矩阵作为线性变换不会丢失信息,每个输入都有唯一输出。
