线性代数——矩阵、向量详解
矩阵是线性代数的基石,在数学、物理、计算机科学、工程学等众多领域都有极其广泛的应用。
第一部分:矩阵的基本概念
1. 什么是矩阵?
定义: 矩阵是一个按照长方阵列排列的复数或实数集合。可以把它想象成一个二维的数字表格。
表示方法:
- 通常用大写粗体字母表示,如 A, B, C。
- 一个矩阵由行和列组成。
- 矩阵的大小或维度用“行数 × 列数”来表示。例如,一个 m 行 n 列的矩阵称为 m × n 矩阵。
元素: 矩阵中的每个数称为矩阵的元素或元。元素的位置由它的行索引 i 和列索引 j 确定,记为 aija_{ij}aij。
A=[a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮am1am2⋯amn]\mathbf{A} = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}A=a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn
示例:
B=[123456]\mathbf{B} = \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}B=[142536]
这是一个 2 行 3 列的矩阵,即 2×3 矩阵。其中,元素 b21=4b_{21} = 4b21=4。
2. 一些特殊类型的矩阵
- 行向量: 只有一行的矩阵(1×n 矩阵)。例如:[123]\begin{bmatrix} 1 & 2 & 3 \end{bmatrix}[123]。
- 列向量: 只有一列的矩阵(m×1 矩阵)。例如:[456]\begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix}456。
- 方阵: 行数和列数相等的矩阵(n×n 矩阵)。
- 零矩阵: 所有元素都为零的矩阵,记作 O 或 0。
- 单位矩阵: 一种特殊的方阵,主对角线(从左上到右下)上的元素都是 1,其他元素都是 0,记作 I 或 E。
I=[100010001]\mathbf{I}= \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}I=100010001
单位矩阵在矩阵乘法中类似于数字1的作用。 - 对角矩阵: 非主对角线上的元素全为零的方阵。
- 三角矩阵: 主对角线以上或以下全为零的方阵。分为上三角矩阵和下三角矩阵。
第二部分:矩阵的基本操作
1. 矩阵的加法与减法
规则: 只有相同维度的矩阵才可以相加或相减。操作是对应元素相加或相减。
C=A±B ⟹ cij=aij±bij\mathbf{C} = \mathbf{A} \pm \mathbf{B} \implies c_{ij} = a_{ij} \pm b_{ij}C=A±B⟹cij=aij±bij
示例:
[1234]\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}[1324]+[5678]\begin{bmatrix}
5 & 6 \\
7 & 8
\end{bmatrix}[5768]=[1+52+63+74+8]\begin{bmatrix}
1+5 & 2+6 \\
3+7 & 4+8\end{bmatrix}[1+53+72+64+8]=[681012]\begin{bmatrix}
6 & 8 \\
10 & 12
\end{bmatrix}[610812]
性质:
- 交换律: A+B=B+A\mathbf{A} + \mathbf{B} = \mathbf{B} + \mathbf{A}A+B=B+A
- 结合律: (A+B)+C=A+(B+C)(\mathbf{A} + \mathbf{B}) + \mathbf{C} = \mathbf{A} + (\mathbf{B} + \mathbf{C})(A+B)+C=A+(B+C)
2. 标量与矩阵的乘法(数乘)(kAk\mathbf{A}kA=Ak\mathbf{A}kAk)
规则: 用一个标量(一个数)k 乘以一个矩阵,即用 k 乘以该矩阵的每一个元素。
B=kA ⟹ bij=k⋅aij\mathbf{B} = k\mathbf{A} \implies b_{ij} = k \cdot a_{ij}B=kA⟹bij=k⋅aij
示例:
3×[1234]3 \times \begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}3×[1324]=[3×13×23×33×4]\begin{bmatrix}
3 \times 1 & 3 \times 2 \\
3 \times 3 & 3 \times 4
\end{bmatrix}[3×13×33×23×4]=[36912]\begin{bmatrix}
3 & 6 \\
9 & 12
\end{bmatrix}[39612]
3. 矩阵的乘法
这是矩阵运算中最重要也是最复杂的一个操作。
规则:
- 前提条件: 第一个矩阵的列数必须等于第二个矩阵的行数。
- 如果 A 是 m×n 矩阵,B 是 n×p 矩阵,则乘积 AB 才有意义,结果是一个 m×p 矩阵。
- 计算方法: 结果矩阵 C 的第 i 行第 j 列的元素 cijc_{ij}cij,等于 A 的第 i 行向量与 B 的第 j 列向量的点积(内积)。
cij=ai1b1j+ai2b2j+⋯+ainbnj=∑k=1naikbkjc_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j} + \dots + a_{in}b_{nj} = \sum_{k=1}^{n} a_{ik}b_{kj}cij=ai1b1j+ai2b2j+⋯+ainbnj=∑k=1naikbkj
示例:
A=[1234]2×2,B=[5678]2×2\mathbf{A} = \begin{bmatrix}
\color{red}1 & \color{red}2 \\
3 & 4
\end{bmatrix}_{2\times2},
\quad
\mathbf{B} = \begin{bmatrix}
\color{blue}5 & 6 \\
\color{blue}7 & 8
\end{bmatrix}_{2\times2}A=[1324]2×2,B=[5768]2×2
计算 C=AB\mathbf{C} = \mathbf{A} \mathbf{B}C=AB(一个 2×2 矩阵):
- c11=(1,2)⋅(5,7)=(1×5)+(2×7)=5+14=19c_{11} = \color{red}(1, 2)\color{black} \cdot \color{blue}(5, 7)\color{black} = (1\times5) + (2\times7) = 5 + 14 = 19c11=(1,2)⋅(5,7)=(1×5)+(2×7)=5+14=19
- c12=(1,2)⋅(6,8)=(1×6)+(2×8)=6+16=22c_{12} = (1, 2) \cdot (6, 8) = (1\times6) + (2\times8) = 6 + 16 = 22c12=(1,2)⋅(6,8)=(1×6)+(2×8)=6+16=22
- c21=(3,4)⋅(5,7)=(3×5)+(4×7)=15+28=43c_{21} = (3, 4) \cdot (5, 7) = (3\times5) + (4\times7) = 15 + 28 = 43c21=(3,4)⋅(5,7)=(3×5)+(4×7)=15+28=43
- c22=(3,4)⋅(6,8)=(3×6)+(4×8)=18+32=50c_{22} = (3, 4) \cdot (6, 8) = (3\times6) + (4\times8) = 18 + 32 = 50c22=(3,4)⋅(6,8)=(3×6)+(4×8)=18+32=50
所以:
C=[19224350]\mathbf{C} = \begin{bmatrix}
19 & 22 \\
43 & 50
\end{bmatrix}C=[19432250]
重要性质:
- 不满足交换律: 在绝大多数情况下,AB≠BA\mathbf{AB} \neq \mathbf{BA}AB=BA。这是矩阵乘法和数字乘法最根本的区别。
- 满足结合律: (AB)C=A(BC)(\mathbf{AB})\mathbf{C} = \mathbf{A}(\mathbf{BC})(AB)C=A(BC)
- 满足分配律: A(B+C)=AB+AC\mathbf{A}(\mathbf{B} + \mathbf{C}) = \mathbf{AB} + \mathbf{AC}A(B+C)=AB+AC
- 单位矩阵是乘法单位元: IA=A\mathbf{IA} = \mathbf{A}IA=A 且 AI=A\mathbf{AI} = \mathbf{A}AI=A
4.行矩阵与列矩阵的操作(列向量与行向量 )
一个行矩阵(1n)与一个列矩阵(n1)相乘,最后是一个标量结果;所以一般来说线性代数权重结果是一个列矩阵。
一个列矩阵(n1)与一个行矩阵(1m)相乘,最后得到一个n*m的矩阵;
5. 矩阵的转置
定义: 将矩阵的行和列互换,得到的新矩阵称为原矩阵的转置,记作 AT\mathbf{A}^TAT 或 A′\mathbf{A}'A′。
规则: 原矩阵的第 i 行第 j 列的元素,成为转置矩阵的第 j 行第 i 列的元素。
B=AT ⟹ bji=aij\mathbf{B} = \mathbf{A}^T \implies b_{ji} = a_{ij}B=AT⟹bji=aij
示例:
[
A\mathbf{A}A = [123456]\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}[142536]2×3{2\times3}2×3
⇒\quad \Rightarrow \quad⇒
AT=[142536]\mathbf{A}^T = \begin{bmatrix}
1 & 4 \\
2 & 5 \\
3 & 6
\end{bmatrix}AT=1234563×2{3\times2}3×2
]
性质:
- (AT)T=A(\mathbf{A}^T)^T = \mathbf{A}(AT)T=A
- (A+B)T=AT+BT(\mathbf{A} + \mathbf{B})^T = \mathbf{A}^T + \mathbf{B}^T(A+B)T=AT+BT
- (AB)T=BTAT(\mathbf{AB})^T = \mathbf{B}^T \mathbf{A}^T(AB)T=BTAT(重要!顺序颠倒)
- 如果 AT=A\mathbf{A}^T = \mathbf{A}AT=A,则称 A 为对称矩阵。
对于列向量和行向量
A\mathbf{A}A=[123]\begin{bmatrix} 1 & 2 & 3 \end{bmatrix}[123]
AT\mathbf{A}^TAT=[123]\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}123
因为列向量书写相对复杂,所以可以写成行向量的转置
5. 矩阵的逆
定义: 只有方阵(n×n)才可能有逆矩阵。矩阵 A 的逆矩阵记作 A−1\mathbf{A}^{-1}A−1,满足以下条件:
[
AA−1=A−1A=I\mathbf{A} \mathbf{A}^{-1} = \mathbf{A}^{-1} \mathbf{A} = \mathbf{I}AA−1=A−1A=I
]
其中 I 是单位矩阵。逆矩阵的作用类似于数字的倒数(如 5 的倒数是 1/5,因为 5 × (1/5) = 1)。
重要概念:
- 可逆矩阵/非奇异矩阵: 存在逆矩阵的方阵。
- 奇异矩阵: 不存在逆矩阵的方阵。其行列式值为 0。
计算方法(对于 2×2 矩阵有简洁公式):
对于矩阵 A=[abcd]\mathbf{A} = \begin{bmatrix} a & b \\ c & d \end{bmatrix}A=[acbd],其逆矩阵为:
A−1=1ad−bc[d−b−ca]\mathbf{A}^{-1} = \frac{1}{ad-bc} \begin{bmatrix} d & -b \\ -c & a \end{bmatrix}A−1=ad−bc1[d−c−ba]
其中,( ad-bc ) 是矩阵 A 的行列式,记作 det(A)\det(\mathbf{A})det(A)。只有当 det(A)≠0\det(\mathbf{A}) \neq 0det(A)=0 时,逆矩阵才存在。
示例:
求 A=[2322]\mathbf{A} = \begin{bmatrix} 2 & 3 \\ 2 & 2 \end{bmatrix}A=[2232] 的逆。
- 计算行列式: det(A)=(2×2)−(3×2)=4−6=−2≠0\det(\mathbf{A}) = (2\times2) - (3\times2) = 4 - 6 = -2 \neq 0det(A)=(2×2)−(3×2)=4−6=−2=0,所以可逆。
- 代入公式: A−1=1−2[2−3−22]=[−11.51−1]\mathbf{A}^{-1} = \frac{1}{-2} \begin{bmatrix} 2 & -3 \\ -2 & 2 \end{bmatrix} = \begin{bmatrix} -1 & 1.5 \\ 1 & -1 \end{bmatrix}A−1=−21[2−2−32]=[−111.5−1]
- 验证: [2322][−11.51−1]=[1001]\begin{bmatrix} 2 & 3 \\ 2 & 2 \end{bmatrix} \begin{bmatrix} -1 & 1.5 \\ 1 & -1 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}[2232][−111.5−1]=[1001]
性质:
- (A−1)−1=A(\mathbf{A}^{-1})^{-1} = \mathbf{A}(A−1)−1=A
- (AB)−1=B−1A−1(\mathbf{AB})^{-1} = \mathbf{B}^{-1} \mathbf{A}^{-1}(AB)−1=B−1A−1 (重要!顺序颠倒)
- (AT)−1=(A−1)T(\mathbf{A}^T)^{-1} = (\mathbf{A}^{-1})^T(AT)−1=(A−1)T
总结与应用
核心概念关系图:
矩阵A + 矩阵B -> (加法) -> 矩阵C (需同形)
矩阵A × 矩阵B -> (乘法) -> 矩阵C (A列数 = B行数)
核心应用:
矩阵是表示和处理线性方程组、线性变换(旋转、缩放、剪切等)、数据(如图像就是像素矩阵)的强大工具。
- 线性方程组:方程组 {2x+3y=54x−y=3\begin{cases} 2x + 3y = 5 \\ 4x - y = 3 \end{cases}{2x+3y=54x−y=3 可以表示为 [234−1][xy]=[53]\begin{bmatrix} 2 & 3 \\ 4 & -1 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} 5 \\ 3 \end{bmatrix}[243−1][xy]=[53],即 Ax=b\mathbf{A}\mathbf{x} = \mathbf{b}Ax=b。解为 x=A−1b\mathbf{x} = \mathbf{A}^{-1} \mathbf{b}x=A−1b。
- 计算机图形学:物体的平移、旋转、缩放都可以通过矩阵乘法来实现。
- 机器学习:数据集通常表示为样本×特征的矩阵,许多算法(如PCA)都依赖于矩阵运算。
